Лінійна множинна регресія.

Визначення статистичних точкових оцінок

Розглянемо лінійну залежність від m аргументів .

Лінійна модель у цьому разі набирає такого вигляду

. (541)

Для вибірки обсягу n матимемо систему лінійних рівнянь

(542)

де — випадкова величина, що має нормальний закон розподілу з числовими характеристиками і при цьому У векторно-матричній формі система (542) набирає такого вигляду:

(543)

де

Матрицю Х розміром називають регресійною, а елементи цієї матриці — регресорами. Параметри рівняння (541) є величинами сталими, але невідомими. Ці параметри оцінювання статистичними точковими оцінками , які дістають шляхом обробки результатів вибірки, і є величинами випадковими. Таким чином, рівнянню (541) відповідає статистична оцінка

(544)

Статистична оцінка для вектора буде визначатись вектором

(545)

де

Вектор похибок дорівнюватиме

(546)

Для визначення компонентів вектора (статистичних точкових оцінок компонентів вектора ) застосовується метод найменших квадратів.

Знайдемо суму квадратів усіх похибок:

Тут застосовано такі рівності:

Мінімізуючий добуток а саме:

прирівнюючи частинні похідні за елементами вектора до нуля, дістаємо:

(547)

Довірчий інтервал для множинної лінійної регресії

Матриця Х містить m лінійно незалежних векторів-стовпців, а це означає, що ранг її дорівнюватиме m і визначник Отже, матриця має обернену.

Дисперсії статистичних оцінок визначають з допомогою кореляційної матриці для вектора .

Оскільки то, скориставшись (545), (547), дістанемо

(548)

Тоді маємо

(549)

(550)

Скориставшись (549), (550), дістанемо

Таким чином, маємо

. (551)

Оскільки є невідомою величиною, то в (551) замість підставляють його точкову незміщену статистичну оцінку за аналогією з (513).

(552)

де n є кількістю спостережень, а m — кількістю оцінюваних параметрів множинної лінійної регресії.

Значення дисперсії для обчислюють за формулою

(553)

де — діагональний елемент матриці

Розглянемо рівняння лінійної множинної регресії з параметрами , знайденими за результатами вибірки

де — лише одне з можливих значень прогнозної величини для заданих значень .

Ураховуючи те, що є випадковими величинами, то буде також випадковою, а тому матиме дисперсію.

Отже,

Використовуючи властивості дисперсії від суми залежних випадкових величин (випадкові величини є залежними), дістанемо:

оскільки це є квадратична форма, яку можна записати у векторно-матричній формі.

Отже, маємо

. (554)

Тоді, використовуючи (551), дістанемо

. (555)

Оскільки — невідома величина, то в (555) використовуємо її точкову незміщену статистичну оцінку

Таким чином, маємо:

(556)

Отже, істинне значення Y перебуватиме в інтервалі:

(557)

який називають довірчим.

є випадковою величиною, що має розподіл Стьюдента з ступенями свободи і обчислюється за таблицею (додаток 7) за заданою надійністю γ та числом ступенів свободи k.

Якщо до значень — прогнозне значення — додати можливі відхилення ознаки Y від функції регресії, то до дисперсії необхідно додати дисперсію випадкової величини — тобто його точкову незміщену статистичну оцінку

У цьому разі

. (558)

І довірчий інтервал тепер дорівнюватиме:

(559)

Коефіцієнт множинної регресії

Тісноту між ознаками Y та X, де , вимірюють з допомогою коефіцієнта множинної кореляції R, що є узагальненням парного коефіцієнта кореляції r_ij і обчислюється за формулою

. (560)

Чим ближче значення R до ±1, тим краще вибрано функцію регресії

Оскільки , то

оскільки

При цьому а оскільки то остаточно маємо

. (561)

Нормування коефіцієнтів регресії

Множинна лінійна регресія дає змогу порівняти вплив на досліджуваний процес різних чинників. У загальному випадку змінні репрезентують чинники, що мають різні одиниці виміру (кілограми, гривні, метри тощо). Отже, для того щоб порівняти і з’ясувати відносну вагомість кожного з чинників, використовують так звані нормовані коефіцієнти регресії, які визначають за формулою

(562)

де — коефіцієнт регресії після нормування; — виправлене середнє квадратичне відхилення змінної — виправлене середнє квадратичне відхилення ознаки Y.

Приклад 1. Ознака Y — лінійно залежна від , , . Результати спостережень наведено в таблиці:

i	у_і	х_і₁	х_і₂	х_і₃

Необхідно:

1) знайти компоненти вектора і побудувати лінійну

функцію регресії

2) обчислити R;

3) побудувати довірчий інтервал із надійністю для множинної лінійної функції регресії та визначити дисперсії для і оцінити ефективність впливу на ознаку Y незалежних змінних , , .

Розв’язання. 1. З умови задачі маємо:

Оскільки

Отже, дістали:

Рівнянням регресії буде

2. Знайдемо R. Для цього необхідно визначити

Тоді

Для побудови довірчого інтервалу для множинної лінійної функції регресії необхідно обчислити Оскільки то в цьому разі результати обчислень зручно подати у вигляді таблиці: