Множественной регрессии
Для проверки общего качества уравнения регрессии обычно используется коэффициент детерминации R2, который характеризует долю дисперсии зависимой переменной Y, объясняемую регрессионной моделью, и определяется по формуле:
(3.27)
Свойства коэффициента R2 подробно рассмотрены в разделе 2.4.
Для множественной регрессии коэффициент детерминации (или множественный коэффициент детерминации) является неубывающей функцией числа объясняющих переменных, т. е. добавление новой объясняющей переменной (фактора-аргумента Х) в модель никогда не уменьшает значение R2. Действительно, каждая новая объясняющая переменная может лишь дополнить информацию, объясняющую поведение зависимой переменной. В целом это уменьшает неопределенность в поведении исследуемой величины Y. Однако увеличение R2 при добавлении новых переменных далеко не всегда приводит к улучшению качества регрессионной модели, так как эти переменные могут не оказывать существенного влияния на результативный признак. Поэтому, наряду с коэффициентом R2, для анализа используется скорректированный коэффициент детерминации , определяемый соотношением:
(3.28)
или с учетом (3.27)
. (3.29)
Можно заметить, что знаменатель в (3.29) является несмещенной оценкой общей дисперсии зависимой переменной Y, а числитель – несмещенной оценкой остаточной дисперсии (дисперсии случайных отклонений).
Скорректированный коэффициент детерминации устраняет (корректирует) неоправданный эффект, связанный с ростом R2 при увеличении числа объясняющих переменных. Из (3.28) следует, что при m > 1 Можно показать, что увеличивается при добавлении новой объясняющей переменной только тогда, когда t-статистика для этой переменной по модулю больше единицы, т. е. когда ее коэффициент регрессии (параметр модели) считается относительно значимым. Таким образом, в определенной степени использование скорректированного коэффициента детерминации более предпочтительно для сравнения регрессионных моделей при изменении количества объясняющих переменных (регрессоров). Добавление в модель новых регрессоров может осуществляться до тех пор, пока растет .
В компьютерных пакетах приводятся данные как по R2, так и по , которые используются на практике для оценки суммарной меры общего качества построенной регрессионной модели.
В общем случае качество модели считается удовлетворительным, если R2 > 0,5. Однако не следует рассматривать коэффициент детерминации как абсолютный показатель качества модели. Можно привести ряд примеров, когда неправильно специфицированные модели имели сравнительно высокие коэффициенты детерминации. Поэтому коэффициент детерминации в современной эконометрике следует рассматривать лишь как один из показателей, который необходим для анализа строящейся модели.
Анализ общей (совокупной) статистической значимости уравнения множественной регрессии осуществляется на основе проверки основной гипотезы об одновременном равенстве нулю всех коэффициентов при объясняющих переменных:
Н0 : b1 = b2 = … = bm = 0.
Если данная гипотеза не отклоняется, то естественно считать уравнение модели статистически незначимым, т. е. не выражающим существенную линейную связь между Y и Х1, Х2, …, Хm.
Напомним (см. раздел 2.4.3), что общая дисперсия зависимой переменной Dn(y) может быть представлена в виде суммы двух составляющих:
где Dn(y) – соответственно, дисперсия? объясняемая уравнением множественной регрессии, и необъясняемая (остаточная) дисперсия, характеризующая влияние неучтенных факторов.
Исходя из этого проводится дисперсионный анализ для проверки гипотезы Н0 (F-тест).
Строится проверочная F-статистика:
(3.30)
где – объясняемая дисперсия (в уравнении множественной регрессии вместе со свободным членом оценивается k = m + 1 параметров); – остаточная дисперсия. При выполнении предпосылок МНК построенная статистика имеет распределение Фишера с числами степеней свободы v1 = m, v2 = n - m - 1. Поэтому гипотеза Н0 отклоняется, если при заданном уровне значимости a значение Fнабл, рассчитанное по формуле (3.30), больше, чем критическое значение Fкр = Fa; m; n - 1 - m (Fнабл > Fкр), и делается вывод о статистической значимости уравнения множественной регрессии. В противном случае (Fнабл > Fкр) нет оснований для отклонения Н0. Это означает, что объясняемая построенной моделью дисперсия соизмерима с дисперсией, вызванной неучтенными факторами, а следовательно, общее качество модели невысоко.
Если рассчитан коэффициент детерминации R2, то критерий значимости уравнения регрессии (3.30) может быть представлен в следующем виде:
(3.31)
Критерий (3.31) обычно используется на практике для тестирования гипотезы о статистической значимости коэффициента детерминации (Н0 : R2 = 0; Н1 : R2 > 0) которая эквивалентна гипотезе об общей статистической значимости уравнения множественной регрессии.
Отметим, что в отличие от парной регрессии, где t-тест и F-тест равносильны, в случае множественной регрессии коэффициент R2 приобретает самостоятельную значимость.
Пример 3.2. Оценим статистическую значимость построенной модели.
Пусть при оценке регрессии с тремя объясняющими переменными ( по 30 наблюдениям получено значение коэффициента детерминации R2 = 0,7. Тогда, наблюдаемое значение F-статистики . По таблице критических точек распределения Фишера найдем F0,05; 3; 26 = 2,98 при заданном уровне значимости a = 0,05. Поскольку Fнабл = 20,2 > Fкр = 2,98, то нулевая гипотеза отклоняется, т. е. отвергается предположение о незначимости линейной связи.
Дата добавления: 2016-06-02; просмотров: 1655;