Дисперсионный анализ.
Сначала проанализируем дисперсию, он предшествует F-критерию. Центральное место занимает разложение общей суммы квадратов отклонений переменной у от среднего значения на две части.
Общая сумма Объясненную Необъясненную
квадратов регрессию (остаточную)
отклонений регрессию
Общая сумма квадратов отклонений у от вызвана влиянием множества причин. Условно разделим их на две группы: изучаемый фактор х и прочие факторы.
Если фактор не оказывает влияние на результат, то линия регрессии на графике параллельна оси ОХ и . Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной. Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна 0, и сумма квадратов отклонений, объясняющей регрессией совпадает с общей суммой квадратов.
Т.к. не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс, как обусловленный влиянием фактора х, т. е. регрессией у по х, так и вызванный действием прочих причин (необъясненная вариация). Пригодность ЛР для прогноза зависит от того, какая часть общей вариации признака у приходится на долю объясненную вариацией. Если сумма квадратных отклонений, обусловленных регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на у. Это равносильно тому, что .
Любая сумма квадратных отклонений связана с числом степеней свободы ( ) , т. е. с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности n и с числом, определяемым по ней константы. Т. о. число степеней свободы должно показать, сколько независимых х отклонений из n возможных требуется для образования данной суммы квадратов. Так, для общей суммы квадратов требуется независимых отклонений, т. к. по совокупности из n единиц после расчёта среднего уровня свободно варьируется лишь число отклонений.
Например,
, тогда т. к. , то свободно варьируются только 4 отклонения, а пятое отклонение может быть определено, если предыдущие четыре известны.
При расчёте объясненной или факторной суммы квадратов используются теоретические (расчётные) значения результативного признака , найденные из уравнения .
В линейной регрессии
, а
- общая дисперсия признака у;
- дисперсия признака у, обусловленная фактором х.
Поскольку при заданном объёме наблюдений по х и у факторная сумма квадратов при ЛР зависит только от одной константы (коэффициента регрессии b), то данная сумма квадратов имеет одну степень свободы.
К этому же выводу можно прийти по другому.
Отсюда следует, что при заданном наборе переменных у и х расчетное значение является в ЛР функцией только одного параметра - коэффициента регрессии, поэтому факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.
Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов при ЛР составляет . Число степеней свободы для общей суммы квадратов определяется числом единиц, и т. к. мы используем среднюю вычисленную по данным выборки, то теряем одну степень свободы, то есть .
Разделив каждую переменную сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или дисперсию на 1 степень свободы.
; ; .
Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчёте на одну степень свободы, получим величину F-критерия.
F-критерий для проверки нулевой гипотезы.
Н0 : .
Если Н0 справедлива, то фактическая и остаточная дисперсии не отличаются друг от друга. Для Н0 необходимо опровержение, чтобы Дфакт превышала Дост в несколько раз.
Английский статистик Снедекор разработал таблицу критических значений F-критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы.
Вычисленное значение F-отношений признаётся достоверным (отличным от единицы), если оно больше табличного. В этом случае Н0 (отсутствие связи) отклоняется и делается вывод о существенности этой связи: , отклоняется.
Если же , то вероятность Н0 выше заданного уровня (например 0,05) и она не может быть отклонена без серьёзного риска сделать неправильный вывод о наличии связи.
Н0 не отклоняется, а уравнение регрессии становится незначимым.
Величина F-критерия связана с коэффициентом детерминации . Факторную квадратов отклонений можно представить как , ( - общая дисперсия y; - дисперсия y обусловлена фактором x (факторная)), а остаточную сумму ( , ). Тогда .
Оценка значимости уравнения регрессии даётся в виде таблицы дисперсионного анализа.
Источники вариации | Число степеней свободы | квадратов отклонений | Дисперсия на 1 степень свободы | Fотн | |
Факт. | Табл. | ||||
Общая Объясняющая Остаточная | - | - | - 6,61 - |
В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных параметров. Поэтому по каждому из параметров определяется его стандартная ошибка: и , .
Стандартная ошибка коэффициента регрессии определяется по формуле: ;
- остаточная дисперсия на одну степень свободы ошибки.
Величина стандартной ошибки совместно с t-распределением Стьюдента при n-2 степенях свободы применяется для проверки существенности коэффициента регрессии и для расчёта его доверительных интервалов.
Для оценки существенности коэффициента регрессии его величина сравнивается со стандартной ошибкой, т.е. определяется фактическое значение t-критерия Стьюдента.
, который сравнивается с табличным значением при определённом уровне значимости и числе степеней свободы .
Если фактическое значение больше табличного, то гипотезу о несущественности коэффициентов отвергаем. Доверительный интервал для коэффициента регрессии b определим по формуле предельная ошибка ( границы).
Так как коэффициент регрессии носит в эконометрических исследованиях чётко экономическую интерпретацию, то доверительные интервалы не должны содержать противоречивых результатов, например, . То есть, что истинное значение коэффициента одновременно содержит положительные, отрицательные величины и даже 0, чего не может быть.
Стандартная ошибка параметра a определяется:
Процедура оценивания не отличается от рассмотренной выше для b.
, его величина сравнивается с табличным, при .
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитывается t-критерий Стьюдента и доверительные интервалы для каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, то есть о незначительном отличии их от нуля. Оценки значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путём сопоставления их значений с величиной случайной ошибки (S2 остаточная дисперсия на 1 степень свободы, ).
; ; ;
; ; .
Сравниваем фактические и критические (табл.) значения и принимаем или отвергаем Н0
, то Н0 отклоняется, и считается, что и сформировались под влиянием систем фактора x.
Для расчёта доверительного интервала определяем предельную ошибку для каждого показателя.
; .
Формулы для расчёта доверительных интервалов имеют вид:
Если в границы доверительного интервала попадает нуль, то есть нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается равный 0, так как не может одновременно принимать положительное и отрицательное значения степенями свободы.
Значимость линейного коэффициента корреляции проверяется на основе величины коэффициента корреляции mr
.
Фактическое значение t-критерия Стьюдента определяется
, данная формула свидетельствует, что в парной линейной регрессии , ибо , а также , следовательно .
Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения.
Если при . То есть коэффициент а существенно отличен от нуля – является правильной, а зависимость достоверной.
Рассмотренная формула оценки коэффициента корреляции рекомендуется к применению при большом числе наблюдений и если r не близко к +1 или -1. Если , то распределение его оценок отличается от нормального или распределения Стьюдента, так как величина ограничена значениями (-1; +1). Чтобы обойти это затруднение Р. Фишером было предложено для оценки существенности ввести вспомогательную величину z , связанную с следующим отношением
изменяется , что соответствует нормальному распределению. Стандартная ошибка величины определяется , где n – число наблюдений.
При r = 0,991 .
Z можно взять в таблице для соответствующего r.
Выдвигаем H0 – корреляция отсутствует: .
, то есть фактическое значение превышает его табличное значение на уровне значимости и .
В виду того, что r и z связаны между собой приведённым выше отношением, можно вычислить критические значения r, соответствующие каждому из значений z. Таблицы критических значений r разработаны для уровней значимости 0,05 и 0,01 и соответствующего числа степеней свободы. Критические значения предполагают справедливость нулевой гипотезы, то есть мало отличается от нуля. Если фактическое значение коэффициента по абсолютной величине превышает табличное, то данное значение считается существенным.
Если же , то фактическое значение r несущественно.
Дата добавления: 2016-05-16; просмотров: 2093;