Проверка статистических гипотез о множественной регрессии
3.6 Первый вопрос, который возникает после получения уравнения множественной регрессии и соответствующего ему коэффициента множественной корреляции, заключается в том, существует ли вообще эта связь зависимой переменной Y с набором независимых признаков X. Нулевая гипотеза, заключается, таким образом, в предположении то-
- 38 -
го, что эта связь отсутствует. Для ее проверки используются принципы дисперсионного анализа. В частности, они изложены в разделе 2.5 Главы 2.
Дисперсионному анализу подвергается вариация зависимого признака Y. Так, его общая вариация может быть описана суммой
N
Q = S (Yi - My)2 ,
i = 1
где My - средняя арифметическая величина признака Y. На основе этой суммы может быть получена общая дисперсия независимой переменной
Q
sy2 = .
N - 1
Остаточная вариация значений признака Y по отношению к регрессионным оценкам Y^i может быть описана суммой
N N
Qo = S (Yi - Y^i)2 = S ui2 .
i = 1 i = 1
Число степеней свободы для этой вариации зависит от количества независимых переменных и выражается в виде N - m - 1. Поэтому, остаточная дисперсия, опирающаяся на сумму Qo, находится в виде
Qo
syo2 = .
N - m - 1
Наконец, существует вариация регрессионных оценок Y^i по отношению к общему среднему уровню My, описываемая суммой квадратов отклонений
N
Qr = S (Y^i - My)2 .
i = 1
Она опирается на число степеней свободы, равное числу независимых переменных m, и соответствующая оценка дисперсии равна
Qr
syr2 = .
m
Для трех сумм, описывающих разные компоненты вариации, справедливо соотношение
Q = Qr + Qo .
Очевидно, что в соответствии с принципами дисперсионного анализа суждение о существовании неслучайной вариации регрессионных оценок, описываемой дисперсией syr2, может быть проверено сравнением ее величины с аналогичной дисперсией остаточной вариации, которая в данном случае считается случайной. Такое сравнение можно провести с применением F-критерия Фишера
syr2
F =
syо2
с числами степеней свободы n1 = m n2 = N - m - 1. Для конкретных чисел степеней свобо-
- 39 -
ды n1 и n2 и уровня вероятности ошибки 1-го рода a (0.05, 0.01 и 0.001) по таблицам F-распределения Фишера следует найти критическое значение Fo. При F > Fo можно считать, что предположение об отсутствии регрессионной связи должно быть отвергнуто как не согласующееся с эмпирическими данными. Если F < Fo предположение об отсутствии связи можно сохранить.
При проведении вычислений уравнения множественной регрессии в результатах проведения описанного дисперсионного анализа обычно приводятся значения сумм Qr и Qo чисел степеней свободы n1 и n2, дисперсий syr2 и syо2, F-критерия и соответствующей ему P - вероятности ошибки первого рода. Если P < a (0.05, 0.01 и 0.001) предположение об отсутствии множественной связи отвергается. При P > a это предположение можно сохранить.
3.7 При проведении вычислений множественной регрессии следует помнить о необходимости соблюдения определенных соотношений между количеством наблюдений N и числом независимых переменных m. В частности, число степеней свободы для остаточной вариации равно n2 = N - m - 1. Поэтому, если m оказывается близким к N, n2 становится малым, что может привести к повышению критического уровня Fo и к консервативному сохранению нулевой гипотезы об отсутствии множественной связи. В ситуации m > > N, получить уравнение регрессии окажется невозможным. Таким образом, следует соблюдать правило, в соответствии с которым число независимых переменных должно быть значительно меньше числа наблюдений. Существуют даже рекомендации иметь число наблюдений N по меньшей мере в 5 раз большее числа независимых признаков m. Иногда выдвигается еще более строгое требование, чтобы это превышение было бы двадцатикратным, т.е. N/m > 20.
В соответствии с этими обстоятельствами часто бывает необходимым применение поправок к величине коэффициента множественной корреляции, находимой по формулам (3.10) и (3.22). Исправленное значение R*2 находится с учетом соотношения числа наблюдений N и количества независимых признаков m по формуле
N - 1
R*2 = 1 - (1 - R2 ) . (3.24)
N - m - 1
Нетрудно видеть, что R*2 < R2 . В ситуации большого числа наблюдений при малом количестве независимых признаков уменьшение исправленного значения R*2 по сравнению с R2 окажется небольшим.
При малом числе наблюдений (N <60) и одновременно при большом числе независимых переменных признаков (m>20) формула (3.24) может давать неадекватные результаты. Для таких случаев рекомендуется применять исправленное значение коэффициента множественной корреляции по формуле Брауни
(N - m - 3) R*4 + R*2
RВ2 = ,
(N - 2m -2) R*2 + m
где R*2 находится по (3.24).
- 40 -
3.8 В случае, когда по результатам дисперсионного анализа устанавливается неслучайная множественная связь зависимой переменной Y с набором независимых признаков X, следует проверить предположения о неслучайности вкладов разных Xi в регрессионную модель. Такая проверка может основываться на рассмотрении предположений о том, что для разных признаков Xi коэффициенты регрессии ai неслучайно отличаются от нулевого уровня. Очевидно, что если для каких-то показателей Xi коэффициенты множественной регрессии окажутся случайно отличающимися от нуля, говорить об их вкладе в множественную корреляцию будет рискованно.
Таким образом, после установления существования неслучайной общей множественной регрессионной связи, для каждого независимого признака X1, X2, X3, ..., Xm следует проверить нулевую гипотезу о том, что его коэффициент множественной регрессии ai равен нулю. Для этой цели может быть использован простой критерий
ai
t = , (3.25)
sai
где sai - квадратическая ошибка соответствующего коэффициента регрессии ai. В случае, когда нулевая гипотеза заведомо справедлива, этот критерий имеет t-распределение Стьюдента с числом степеней свободы n = N - m - 1. Таким образом, для конкретного n и вероятности ошибки 1-го рода a (0.05, 0.01 и 0.001) по таблицам t-распределения Стьюдента следует найти критическое значение to. Если t > to , предположение об отсутствии вклада признака Xi в множественную регрессионную связь должно быть отвергнуто как не согласующееся с эмпирическими данными. Если t < to предположение об отсутствии отличий ai от нуля можно сохранить.
При использовании компьютерных программ при вычислении значений t-критерия для коэффициента регрессии ai по каждому признаку Xi по формуле (3.25) также находится соответствующая ему P - вероятность ошибки первого рода. Если P < a (0.05, 0.01 и 0.001) предположение об отсутствии вклада у какого-то признака в множественную связь отвергается. При P > a это предположение можно сохранить.
Значение квадратических ошибок sai для разных коэффициентов множественной регрессии ai определяются следующим образом. В процессе вычислений параметров регрессии, изложенном в разделе 3.4, для матрицы плана D находится про изведение D'D, имеющее вид (3.18) и матрица (D'D)-1 обратная ему. Обозначим диагональные элементы матрицы (D'D)-1 через d(00), d(11), d(22), d(33), ..., d(mm). Тогда для i-го коэффициента множественной регрессии ai квадратическая ошибка sai может быть найдена по формуле
sai = syo(d(ii))1/2 , (3.26)
где syo - среднее квадратическое отклонение остаточной изменчивости.
Пример 3.1 Рассмотрим проведение регрессионного анализа тазогребневого диаметра по различным размерам тела в выборке 242 женщин. Применение множественной регрессии этого признака по скелетным, обхватным размерам тела и жировым складкам направлено на выяснение влияния на изменчивость ширины таза скелетного и жирового соматических компонентов. Результаты вычислений параметров уравнения множественной регрессии приведены в таблице 3.1.
- 41 -
Таблица 3.1. Результаты множественного регрессионного анализа ширины таза по 20 размерам тела по выборке 242 женщин
Признаки | Коэффициенты регрессии | Квадратические ошибки | Стандартиз. коэф. | t- критерии | P |
Свободный член | 21.636 | 34.244 | 0.632 | 0.528 | |
1.Длина корпуса | 0.060 | 0.031 | 0.104 | 1.931 | 0.055 |
2.Длина ноги | 0.097 | 0.040 | 0.186 | 2.448 | 0.015* |
3.Длина руки | 0.060 | 0.057 | 0.078 | 1.047 | 0.296 |
4.Ширина плеч | 0.025 | 0.024 | 0.054 | 1.050 | 0.295 |
5.Ширина колена | 0.080 | 0.124 | 0.039 | 0.645 | 0.520 |
6.Ширина лодыжки | -0.596 | 0.298 | -0.120 | -1.998 | 0.047* |
7.Ширина локтя | 0.031 | 0.357 | 0.005 | 0.087 | 0.931 |
8.Ширина запястья | 0.679 | 0.533 | 0.080 | 1.275 | 0.204 |
9.Обхват бедра | 0.037 | 0.049 | 0.090 | 0.762 | 0.447 |
10.Обхват голени | -0.044 | 0.032 | -0.086 | -1.369 | 0.173 |
11.Обхват груди | 0.097 | 0.034 | 0.344 | 2.895 | 0.004* |
12.Обхват плеча | -0.016 | 0.065 | -0.028 | -0.252 | 0.802 |
13.Обхват предпл. | -0.037 | 0.100 | -0.035 | -0.373 | 0.710 |
14.Складка бедра | -0.033 | 0.022 | -0.151 | -1.486 | 0.139 |
15.Складка бицепса | 0.017 | 0.036 | 0.048 | 0.487 | 0.627 |
16.Складка голени | 0.025 | 0.035 | 0.060 | 0.715 | 0.475 |
17.Складка лопатки | 0.019 | 0.026 | 0.075 | 0.720 | 0.472 |
18.Складка предпл. | -0.025 | 0.063 | -0.043 | -0.401 | 0.689 |
19.Складка трицепса | 0.038 | 0.041 | 0.111 | 0.934 | 0.351 |
20.Складка живота | 0.042 | 0.026 | 0.179 | 1.604 | 0.110 |
Величина множественного коэффициента корреляции ширины таза по 20 размерам тела равна 0.690, а его квадрат - коэффициент множественной детерминации - 0.476. Исправленная с учетом количества независимых переменных величина коэффициента детерми нации составляет 0.429, чему соответствует доля вариации тазогребневого диа-
Таблица 3.2. Результаты дисперсионного анализа при проверке неслучайности множественной регрессии ширины таза по 20 размерам тела
по выборке 242 женщин
Компоненты изменчивости | Суммы Q | Степени свободы | Дисперсии | F-критерий | P |
Регрессионная | 55039.277 | 2751.96 | 10.05 | 0.000 | |
Остаточная | 60532.095 | 273.90 |
- 42 -
метра, определяемая влиянием на него других размеров тела - 42.9%. Проверка неслучайности множественной регрессионной связи с использованием дисперсионного анализа дала результаты, приведенные в таблице 3.2. Можно видеть, что с практически нулевой вероятностью ошибки 1-го рода (P) нулевая гипотеза об отсутствии этой связи должна быть отвергнута.
Суждение об участии в множественной связи различных признаков может быть сделано по значениям стандартизованных коэффициентов регрессии (табл.3.1). Нетрудно видеть, что наибольшие по абсолютной величине коэффициенты имеют: обхват груди, длина ноги, жировые складки на животе и бедре. Отсюда можно сделать вывод о том, что вариация тазового диаметра у женщин зависит в первую очередь от поперечного развития тела, связанного главным образом с развитием жирового компонента, и от длины нижней конечности.
При проверке случайности отличий от нуля коэффициентов множественной регрес-сии с применением t-критерия достоверные значения этих коэффициентов были найдены лишь для трех признаков: обхвата груди, длины ноги и ширины лодыжки. Последний признак входит в регрессионное уравнение с отрицательным знаком. Поэтому, можно утверждать, что вариация диаметра таза в какой-то мере определяется также попереч-ными размерами мыщелков нижней конечности, причем это влияние противоположно по направлению по сравнением с корреляционными связями тазогребневого диаметра с поперечным развитием тела и длиной нижней конечности.
Дата добавления: 2016-02-13; просмотров: 805;