Оценка качества модели множественной регрессии
Проверка качества модели множественной регрессии может быть осуществлена с помощью дисперсионного анализа.
Как уже было отмечено (см. 2.5), сумма квадратов отклонений от среднего в выборке равна сумме квадратов отклонений значений
, полученных по уравнению регрессии, от выборочного среднего
плюс сумма квадратов отклонений Y от линии регрессии
.
С учетом (3.21) получим таблицу дисперсионного анализа (табл. 3.4), аналог таблицы 2.3.
Проверка качества модели множественной регрессии в целом может быть осуществлена с помощью F-критерия Фишера. Для проверки гипотезы о том, что линейная связь между
и y отсутствует:
,
воспользуемся соотношением
(3.23)
которое удовлетворяет F - распределению Фишера с (k, n-(k+1)) степенями свободы. Критические значения этой статистики Fe для уровня значимости e затабулированы.
Таблица 3.4
Таблица дисперсионного анализа
| Источник вариации | Сумма квадратов отклонений | Число степеней свободы | Дисперсия на одну степень свободы |
|
| k |
|
| Остаток |
| n-k-1 |
|
| Общая вариация |
| n-1 |
Если F>Fe, то гипотеза об отсутствии связи между переменными
и y отклоняется, в противном случае гипотеза Н0 принимается и уравнение регрессии не значимо.
Пример (продолжение примера 1). Заполним таблицу дисперсионного анализа:
Таблица дисперсионного анализа
| Источник вариации | Сумма квадратов отклонений | Число степеней свободы | Дисперсия |
| 5828,84 | 2914,42 | |
| Остаток | 2049,54 | 120,56 | |
| Общая вариация | 7878,38 |
Получаем
,
.
В нашем примере F>Fe, следовательно, нулевая гипотеза отклоняется, и уравнение множественной регрессии значимо. Ñ
Помимо проверки значимости уравнения в целом, можно проверить статистическую значимость каждого из коэффициентов регрессии в отдельности.
Фактически это означает проверку одной из гипотез:
1)
; …; k)
.
Статистическая значимость каждого из коэффициентов регрессии определяется при помощи t-критерия Стьюдента. Решение о том, что верна нулевая гипотеза, принимается в случае, когда |t|<te, иначе принимается альтернативная гипотеза.
Значение t-статистики Стьюдента в случае множественной регрессии определяется по формуле:
, (3.24)
где
- стандартная ошибка коэффициента регрессии
, которая определяется по формуле
, (3.25)
здесь
- стандартное отклонение y;
- стандартное отклонение xi;
- коэффициент детерминации для зависимости фактора xi от других факторов уравнения множественной регрессии.
Пример (продолжение примера 1). Проверим значимость коэффициентов регрессии. В случае, когда в уравнение регрессии включены две независимые переменные, формула (3.24) упрощается
,
.
Таким образом:
=4,69,
=4,50,
.
Так как в обоих случаях
, то коэффициенты регрессии значимы, следовательно, и вес груза, и расстояние грузовой перевозки оказывают существенное, статистически значимое влияние на стоимость перевозки. Ñ
Дата добавления: 2017-04-20; просмотров: 460;
