Декомпозиция дисперсий.
Наряду с коэффициентом корреляции используется еще один критерий, с помощью которого также оценивается теснота связи между двумя или большим числом показателей и проверяется адекватность построенной регрессионной модели реальной действительности. Таким образом дается ответ на вопрос, действительно ли изменение значений случайной величины Y линейно зависит именно от изменения случайной величины Х, а не происходит под действием других случайных величин. Таким критерием является коэффициент детерминации.
Прежде чем рассматривать, что представляет собой коэффициент детерминации и как он связан с коэффициентом корреляции, рассмотрим вопрос о декомпозиции дисперсий, который является центральным в статистике.
Сначала попытаемся уяснить, как можно разбить на две части отклонение фактических значений независимой переменной у от значений, которые находятся по построенной регрессионной прямой (теоретических значений).
y
0 x
Рис. 1.3. Декомпозиция отклонений фактических значений от теоретических.
Как видно из рисунка 1.3, такие отклонения можно записать в виде:
Отсюда
(1.10)
В статистике разность называют общим отклонением. Разность называют отклонением, которое можно пояснить, исходя из уравнения регрессии. Разность называют отклонением, которое нельзя пояснить, исходя из уравнения регрессии, или необъяснимым отклонением.
Возведем обе части равенства (1.10) в квадрат
(1.11)
Упростим вторую сумму в правой части
т.к. в силу (1.4) .
Формула (1.11) принимает вид
(1.12)
Здесь – общая сумма квадратов, которая обычно обозначается SST; – сумма квадратов ошибок, которая обозначается SSE; – сумма квадратов, которая объясняет регрессию и обозначается через SSR.
Таким образом, формулу (1.12) можно переписать в виде
.
Разделив обе части в формуле (1.11) на n, получим выражение для дисперсий:
(1.13)
, (1.14)
где – общая дисперсия,
– дисперсия ошибок,
– дисперсия, которая поясняет регрессию.
Разделив обе части (1.14) на , получим
(1.15)
Первое слагаемое в правой части формулы (1.15) представляет собой часть дисперсии, которую нельзя объяснить через регрессионную связь. Второе слагаемое является составной частью дисперсии, которую можно пояснить через линию регрессии.
Часть дисперсии, которая объясняет регрессию, называется коэффициентом детерминации и обозначается . Коэффициент детерминации используется как критерий адекватности модели, поскольку является мерой объяснимой силы независимой переменной х.
Таким образом, коэффициент детерминации можно записать в виде двух эквивалентных выражение:
(1.16)
или
(1.17)
Из (1.15) вытекает, что коэффициент детерминации всегда положительный и не превосходит 1 ( ).
Индексом корреляции называется квадратный корень из коэффициента детерминации.
Дата добавления: 2016-05-11; просмотров: 2558;