Проверка статистических гипотез о множественной регрессии

 

3.6 Первый вопрос, который возникает после получения уравнения множественной регрессии и соответствующего ему коэффициента множественной корреляции, заключается в том, существует ли вообще эта связь зависимой переменной Y с набором независимых признаков X. Нулевая гипотеза, заключается, таким образом, в предположении то-

- 38 -

го, что эта связь отсутствует. Для ее проверки используются принципы дисперсионного анализа. В частности, они изложены в разделе 2.5 Главы 2.

Дисперсионному анализу подвергается вариация зависимого признака Y. Так, его общая вариация может быть описана суммой

N

Q = S (Yi - My)2 ,

i = 1

где My - средняя арифметическая величина признака Y. На основе этой суммы может быть получена общая дисперсия независимой переменной

Q

sy2 = .

N - 1

Остаточная вариация значений признака Y по отношению к регрессионным оценкам Y^i может быть описана суммой

N N

Qo = S (Yi - Y^i)2 = S ui2 .

i = 1 i = 1

Число степеней свободы для этой вариации зависит от количества независимых переменных и выражается в виде N - m - 1. Поэтому, остаточная дисперсия, опирающаяся на сумму Qo, находится в виде

Qo

syo2 = .

N - m - 1

Наконец, существует вариация регрессионных оценок Y^i по отношению к общему среднему уровню My, описываемая суммой квадратов отклонений

N

Qr = S (Y^i - My)2 .

i = 1

Она опирается на число степеней свободы, равное числу независимых переменных m, и соответствующая оценка дисперсии равна

Qr

syr2 = .

m

Для трех сумм, описывающих разные компоненты вариации, справедливо соотношение

Q = Qr + Qo .

Очевидно, что в соответствии с принципами дисперсионного анализа суждение о существовании неслучайной вариации регрессионных оценок, описываемой дисперсией syr2, может быть проверено сравнением ее величины с аналогичной дисперсией остаточной вариации, которая в данном случае считается случайной. Такое сравнение можно провести с применением F-критерия Фишера

syr2

F =

s2

с числами степеней свободы n1 = m n2 = N - m - 1. Для конкретных чисел степеней свобо-

- 39 -

ды n1 и n2 и уровня вероятности ошибки 1-го рода a (0.05, 0.01 и 0.001) по таблицам F-распределения Фишера следует найти критическое значение Fo. При F > Fo можно считать, что предположение об отсутствии регрессионной связи должно быть отвергнуто как не согласующееся с эмпирическими данными. Если F < Fo предположение об отсутствии связи можно сохранить.

При проведении вычислений уравнения множественной регрессии в результатах проведения описанного дисперсионного анализа обычно приводятся значения сумм Qr и Qo чисел степеней свободы n1 и n2, дисперсий syr2 и s2, F-критерия и соответствующей ему P - вероятности ошибки первого рода. Если P < a (0.05, 0.01 и 0.001) предположение об отсутствии множественной связи отвергается. При P > a это предположение можно сохранить.

 

3.7 При проведении вычислений множественной регрессии следует помнить о необходимости соблюдения определенных соотношений между количеством наблюдений N и числом независимых переменных m. В частности, число степеней свободы для остаточной вариации равно n2 = N - m - 1. Поэтому, если m оказывается близким к N, n2 становится малым, что может привести к повышению критического уровня Fo и к консервативному сохранению нулевой гипотезы об отсутствии множественной связи. В ситуации m > > N, получить уравнение регрессии окажется невозможным. Таким образом, следует соблюдать правило, в соответствии с которым число независимых переменных должно быть значительно меньше числа наблюдений. Существуют даже рекомендации иметь число наблюдений N по меньшей мере в 5 раз большее числа независимых признаков m. Иногда выдвигается еще более строгое требование, чтобы это превышение было бы двадцатикратным, т.е. N/m > 20.

В соответствии с этими обстоятельствами часто бывает необходимым применение поправок к величине коэффициента множественной корреляции, находимой по формулам (3.10) и (3.22). Исправленное значение R*2 находится с учетом соотношения числа наблюдений N и количества независимых признаков m по формуле

N - 1

R*2 = 1 - (1 - R2 ) . (3.24)

N - m - 1

Нетрудно видеть, что R*2 < R2 . В ситуации большого числа наблюдений при малом количестве независимых признаков уменьшение исправленного значения R*2 по сравнению с R2 окажется небольшим.

При малом числе наблюдений (N <60) и одновременно при большом числе независимых переменных признаков (m>20) формула (3.24) может давать неадекватные результаты. Для таких случаев рекомендуется применять исправленное значение коэффициента множественной корреляции по формуле Брауни

(N - m - 3) R*4 + R*2

RВ2 = ,

(N - 2m -2) R*2 + m

где R*2 находится по (3.24).

 

 

- 40 -

3.8 В случае, когда по результатам дисперсионного анализа устанавливается неслучайная множественная связь зависимой переменной Y с набором независимых признаков X, следует проверить предположения о неслучайности вкладов разных Xi в регрессионную модель. Такая проверка может основываться на рассмотрении предположений о том, что для разных признаков Xi коэффициенты регрессии ai неслучайно отличаются от нулевого уровня. Очевидно, что если для каких-то показателей Xi коэффициенты множественной регрессии окажутся случайно отличающимися от нуля, говорить об их вкладе в множественную корреляцию будет рискованно.

Таким образом, после установления существования неслучайной общей множественной регрессионной связи, для каждого независимого признака X1, X2, X3, ..., Xm следует проверить нулевую гипотезу о том, что его коэффициент множественной регрессии ai равен нулю. Для этой цели может быть использован простой критерий

ai

t = , (3.25)

sai

где sai - квадратическая ошибка соответствующего коэффициента регрессии ai. В случае, когда нулевая гипотеза заведомо справедлива, этот критерий имеет t-распределение Стьюдента с числом степеней свободы n = N - m - 1. Таким образом, для конкретного n и вероятности ошибки 1-го рода a (0.05, 0.01 и 0.001) по таблицам t-распределения Стьюдента следует найти критическое значение to. Если t > to , предположение об отсутствии вклада признака Xi в множественную регрессионную связь должно быть отвергнуто как не согласующееся с эмпирическими данными. Если t < to предположение об отсутствии отличий ai от нуля можно сохранить.

При использовании компьютерных программ при вычислении значений t-критерия для коэффициента регрессии ai по каждому признаку Xi по формуле (3.25) также находится соответствующая ему P - вероятность ошибки первого рода. Если P < a (0.05, 0.01 и 0.001) предположение об отсутствии вклада у какого-то признака в множественную связь отвергается. При P > a это предположение можно сохранить.

Значение квадратических ошибок sai для разных коэффициентов множественной регрессии ai определяются следующим образом. В процессе вычислений параметров регрессии, изложенном в разделе 3.4, для матрицы плана D находится про изведение D'D, имеющее вид (3.18) и матрица (D'D)-1 обратная ему. Обозначим диагональные элементы матрицы (D'D)-1 через d(00), d(11), d(22), d(33), ..., d(mm). Тогда для i-го коэффициента множественной регрессии ai квадратическая ошибка sai может быть найдена по формуле

sai = syo(d(ii))1/2 , (3.26)

где syo - среднее квадратическое отклонение остаточной изменчивости.

 

Пример 3.1 Рассмотрим проведение регрессионного анализа тазогребневого диаметра по различным размерам тела в выборке 242 женщин. Применение множественной регрессии этого признака по скелетным, обхватным размерам тела и жировым складкам направлено на выяснение влияния на изменчивость ширины таза скелетного и жирового соматических компонентов. Результаты вычислений параметров уравнения множественной регрессии приведены в таблице 3.1.

 

- 41 -

Таблица 3.1. Результаты множественного регрессионного анализа ширины таза по 20 размерам тела по выборке 242 женщин

 

Признаки Коэффициенты регрессии Квадратические ошибки Стандартиз. коэф. t- критерии P
Свободный член 21.636 34.244   0.632 0.528
1.Длина корпуса 0.060 0.031 0.104 1.931 0.055
2.Длина ноги 0.097 0.040 0.186 2.448 0.015*
3.Длина руки 0.060 0.057 0.078 1.047 0.296
4.Ширина плеч 0.025 0.024 0.054 1.050 0.295
5.Ширина колена 0.080 0.124 0.039 0.645 0.520
6.Ширина лодыжки -0.596 0.298 -0.120 -1.998 0.047*
7.Ширина локтя 0.031 0.357 0.005 0.087 0.931
8.Ширина запястья 0.679 0.533 0.080 1.275 0.204
9.Обхват бедра 0.037 0.049 0.090 0.762 0.447
10.Обхват голени -0.044 0.032 -0.086 -1.369 0.173
11.Обхват груди 0.097 0.034 0.344 2.895 0.004*
12.Обхват плеча -0.016 0.065 -0.028 -0.252 0.802
13.Обхват предпл. -0.037 0.100 -0.035 -0.373 0.710
14.Складка бедра -0.033 0.022 -0.151 -1.486 0.139
15.Складка бицепса 0.017 0.036 0.048 0.487 0.627
16.Складка голени 0.025 0.035 0.060 0.715 0.475
17.Складка лопатки 0.019 0.026 0.075 0.720 0.472
18.Складка предпл. -0.025 0.063 -0.043 -0.401 0.689
19.Складка трицепса 0.038 0.041 0.111 0.934 0.351
20.Складка живота 0.042 0.026 0.179 1.604 0.110

 

Величина множественного коэффициента корреляции ширины таза по 20 размерам тела равна 0.690, а его квадрат - коэффициент множественной детерминации - 0.476. Исправленная с учетом количества независимых переменных величина коэффициента детерми нации составляет 0.429, чему соответствует доля вариации тазогребневого диа-

 

Таблица 3.2. Результаты дисперсионного анализа при проверке неслучайности множественной регрессии ширины таза по 20 размерам тела

по выборке 242 женщин

 

Компоненты изменчивости Суммы Q Степени свободы Дисперсии F-критерий P
Регрессионная 55039.277 2751.96 10.05 0.000
Остаточная 60532.095 273.90    

- 42 -

метра, определяемая влиянием на него других размеров тела - 42.9%. Проверка неслучайности множественной регрессионной связи с использованием дисперсионного анализа дала результаты, приведенные в таблице 3.2. Можно видеть, что с практически нулевой вероятностью ошибки 1-го рода (P) нулевая гипотеза об отсутствии этой связи должна быть отвергнута.

Суждение об участии в множественной связи различных признаков может быть сделано по значениям стандартизованных коэффициентов регрессии (табл.3.1). Нетрудно видеть, что наибольшие по абсолютной величине коэффициенты имеют: обхват груди, длина ноги, жировые складки на животе и бедре. Отсюда можно сделать вывод о том, что вариация тазового диаметра у женщин зависит в первую очередь от поперечного развития тела, связанного главным образом с развитием жирового компонента, и от длины нижней конечности.

При проверке случайности отличий от нуля коэффициентов множественной регрес-сии с применением t-критерия достоверные значения этих коэффициентов были найдены лишь для трех признаков: обхвата груди, длины ноги и ширины лодыжки. Последний признак входит в регрессионное уравнение с отрицательным знаком. Поэтому, можно утверждать, что вариация диаметра таза в какой-то мере определяется также попереч-ными размерами мыщелков нижней конечности, причем это влияние противоположно по направлению по сравнением с корреляционными связями тазогребневого диаметра с поперечным развитием тела и длиной нижней конечности.

 








Дата добавления: 2016-02-13; просмотров: 816;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.019 сек.