Парная регрессия и корреляция 5 страница
получим
.
Подставив этот результат в формулу коэффициента множественной детерминации B, приведем ее к виду
.
Итак, мы определили способы оценки тесноты связи одной переменной (Y) с совокупностью переменных , включенных в анализ социально-экономических явлений. При этом следует отметить, что если переменные , коррелируют друг с другом, то на значение коэффициента парной корреляции между Y и частично сказывается влияние других переменных. Вполне возможно, что корреляция между Y и непрямая, а косвенная, возникающая вследствие воздействия других переменных на Y. Поэтому для определения интенсивности связи между Y и следует зафиксировать или исключить влияние других переменных . Интенсивность такой связи определяется с помощью коэффициентов частной корреляции. Исключенные переменные могут закрепляться как на средних уровнях, так и на уровнях, выбранных в соответствии с интересующими нас участками изменения переменных, между которыми определяется связь в чистой форме.
Изучим частную корреляцию в случае взаимосвязи трех переменных. Определим коэффициенты частной корреляции между переменными Y и при исключении влияния , а также частной корреляции между переменными Y и при исключении влияния :
. (2.12)
Как видно из приведенных формул, вычисление коэффициентов частной корреляции сводится к нахождению коэффициентов парной корреляции. Из формул (2.12) следует, что если (переменные и не коррелированы), то и ; если же , то . Это означает, что с уменьшением взаимосвязи между факторами и коэффициент частной корреляции по сравнению с соответствующим коэффициентом парной корреляции не убывает, причем увеличение коэффициентов частной корреляции тем сильнее, чем больше или . Кроме того, при , а при ; если же и имеют противоположные знаки, то всегда . Отметим, что коэффициент множественной корреляции также связан с частными коэффициентами корреляции по формуле
или
.
Обобщим формулы (2.12) на любое число факторных признаков. Для этого воспользуемся формулами, связывающими коэффициенты частной и парной корреляций с коэффициентами частной регрессии:
,
.
Перемножив правые и левые части приведенных формул, получим:
,
. (2.13)
Обобщая формулу (2.13), можно записать:
.
Аналогично можно обобщить и формулы (2.12):
. (2.14)
Как видно из формулы (2.14), вычисление коэффициентов частной корреляции порядка m сводится к вычислению коэффициентов частной корреляциипорядка m-1. Поэтому применениеформулы (2.14) предполагаетзнание коэффициентов парной корреляции, что позволяет вычислять коэффициенты частной корреляции, которые в свою очередь дают возможность вычислять коэффициенты частной корреляции более высокого порядка.
В множественном регрессионном анализе определяют часть из тех изменений, которые в данном явлении зависят от одного факторного признака при исключении влияния остальных факторных признаков, рассматриваемых в регрессии. Для этого используется коэффициент частной детерминации.
Остановимся на случае линейной зависимости результативного признака
Y от факторных признаков и .
Для оценки части вариации Y, объясняемой вариацией фактора при исключении влияния , определим формулы коэффициента частной детерминации по данным, из которых исключены значения фактора :
Используя формулу
и учитывая, что , получаем выражение коэффициента частной детерминации:
.
Выполнив элементарные преобразования, приведем это выражение к виду
. (2.15)
Из формулы (2.15) следует, что коэффициент частной детерминации вычисляется по коэффициентам парной детерминации. Эта формула позволяет устанавливать часть вариации, обусловленной зависимостью результативного признака Y от фактора при исключении влияния .
Укажем формулы, связывающие коэффициенты множественной и частной корреляций, регрессии и детерминации. Между коэффициентами множественной корреляции R и детерминации B существует следующее соотношение:
или
.
Такие же соотношения справедливы и для коэффициентов частной корреляции и частной детерминации. Например,
.
Коэффициент множественной детерминации равен сумме коэффициентов парной детерминации, если переменные попарно не коррелированы, т.е.
.
Кроме того, справедливо следующее соотношение между коэффициентами частной детерминации и регрессии:
.
2.6. Проверка статистической существенности (значимости) параметров множественной регрессии и показателей интенсивности корреляционной связи. Как отмечалось, каждый параметр корреляционно-регрессионного анализа является случайной величиной. Поэтому для ответа на вопрос, могут ли обнаруженные различия между оценками параметров корреляционно-регрессионного анализа и самими параметрами быть приписаны случайным колебаниям в выборке или они отражают существенное изменение условий взаимосвязи переменных, проводится проверка статистической значимости оценок на основе статистики.
Для проверки статистической значимости коэффициентов регрессии , выдвигаются следующие гипотезы:
- переменная не оказывает существенного влияния на зависимую переменную Y;
- переменная оказывает существенное влияние на зависимую переменную Y.
Для проверки гипотезы используется статистика
(2.16)
где дисперсия остатков; - элемент главной диагонали матрицы . Статистика (2.16) имеет t-распределение Стьюдента с степенями свободы. Если , то с вероятностью нулевая гипотеза отвергается, т.е. с вероятностью можно утверждать, что переменная оказывает значимое частное влияние на переменную Y. В противном случае, т.е. при , принимается гипотеза . Следовательно, на основе данной выборки нельзя окончательно решить, значимо ли частное влияние переменной на переменную Y.
Оценка статистической значимости парных коэффициентов корреляции проводится аналогично проверке гипотезы о статистической значимости выборочного коэффициента корреляции. Статистическая значимость коэффициентов частной корреляции проверяется также аналогичным способом, изменяется лишь число степеней свободы. Таким образом, для проверки гипотезы , состоящей в том, что различие между выборочным частным коэффициентом корреляции и частным коэффициентом корреляции генеральной совокупности незначимо, вычисляется статистика
и сравнивается с критическим значением , найденным по таблице t-распределения при уровне значимости и числе степеней свободы . Принятие или отклонение гипотезы проводится по правилу, которое описано в п. 1.8. Проверку значимости частного коэффициента корреляции можно осуществить, используя критические значения коэффициента корреляции и z-преобразование Фишера.
Оценка статистической значимости коэффициента множественной детерминации проводится с помощью статистики
,
которая имеет F-распределение с и степенями свободы. Расчетное значение статистики сравнивается с критическим значением , которое определяется по таблице F-распределения при заданном уровне значимости и степенях свободы и . Если , то вычисленный коэффициент детерминации значимо отличается от нуля. В противном случае, т.е. при , принимается нулевая гипотеза : , состоящая в том, что ни одна из переменных , включенных в уравнение регрессии, не оказывает существенного влияния на зависимую переменную.
Для оценки существенности коэффициента частной детерминации применяется статистика
,
которая имеет F-распределение с и степенями свободы. Здесь p - число переменных, исключенных при вычислении коэффициентов частной детерминации. Процедура проверки статистической значимости коэффициента частной детерминации аналогична процедуре проверки статистической значимости коэффициента множественной детерминации.
Так как между коэффициентами множественной корреляции и детерминации выполняется равенство
или ,
то о значимости коэффициента множественной корреляции судят по результату проверки значимости коэффициента множественной детерминации. Кроме того, если , то с вероятностью 0,99 можно считать R статистически значимым.
Следует отметить, что дополнительное исследование изучаемой регрессионной модели может показать, что не все переменные, введенные в модель, имеют одинаковое значение в исследуемой регрессии. Поэтому, прежде чем вынести решение об исключении переменных из анализа вследствие их незначимого влияния на зависимую переменную, проводят исследование с помощью коэффициента детерминации. Для проверки предположения о включении в регрессионную модель переменных можно применить критерий, который оценивает систематическое влияние дополнительно включенных переменных . При этом рассматриваются две регрессионные модели:
, (2.17)
(2.18)
для которых , где - число переменных модели (2.18); m - число переменныхмодели (2.17). В регрессии (2.17) по сравнению с (2.18) содержится дополнительно переменных . Для проверки гипотезы о том, вносят ли переменных существенную долю в объяснение вариации переменной Y, сформулируем гипотезу , состоящую в том, что , при альтернативной гипотезе : . Отметим, что влияние первых переменных не оценивается. При проверке гипотезы используется статистика
, (2.19)
имеющая F-распределение с и степенями свободы. В формуле (2.19) - коэффициент детерминации регрессии с m переменными, а - коэффициент детерминации регрессии с переменными. Разность в числителе формулы (2.19) является мерой дополнительного объяснения вариации переменной Y за счет включения переменных. Поэтому число степеней свободы числителя равно . В критерии базой сравнения служит неопределенность функции регрессии с m переменными, поэтому число степеней свободы знаменателя равно . Если , то включенные дополнительно переменные совместно не оказывают значимого влияния на переменную Y. В противном случае, при , гипотеза на уровне значимости отвергается, т.е. включенные переменные оказывают существенное влияние на вариацию переменной Y. Критическое значение находят по таблице F-распределения при заданном уровне значимости и , степенях свободы.
Важной проблемой регрессионного анализа является сравнение оценок параметров регрессии. При этом выделяются две проблемы:
1) сравнение коэффициентов частной регрессии и одной и той же функции регрессии;
2) сравнение оценок параметров двух функций регрессии для двух различных выборок.
Для решения первой проблемы формулируем нулевую гипотезу , состоящую в том, что , т.е. коэффициенты частной регрессии в генеральной совокупности равны. В альтернативной гипотезе предполагаем, что коэффициенты частной регрессии в генеральной совокупности значимо различаются. При этом если : , то используется двусторонняя критическая область, если же : , то используется односторонняя критическая область. При проверке нулевой гипотезы может быть использован критерий
, (2.20)
имеющий t-распределение с степенями свободы. В формуле (2.20) , и - элементы матрицы . Решение о принятии гипотезы принимается путем сравнения с квантилем t-распределения для уровня значимости при степенях свободы. Если , то гипотеза с вероятностью отвергается, т.е. коэффициенты регрессии и статистически значимо различны. В противном случае гипотеза принимается.
Сравним оценки параметров регрессии двух функций для двух выборок объемами и . При этом предположим, что:
1) в обеих генеральных совокупностях исследуется содержательно одинаковая зависимость переменной Y от переменной X;
2) пары наблюдений и , являются результатами двух независимых выборок объемами и из генеральных совокупностей;
3) по результатам каждой выборки строится простая линейная регрессия и находится дисперсия остатков:
Для сравнения оценок параметров регрессий выдвигается нулевая гипотеза , состоящая в том, что обе выборки произведены из генеральных совокупностей в среднем с одинаковой зависимостью переменной Y от переменной X: .Альтернативная гипотеза заключается в том, что выборки произведены из генеральных совокупностей с разной зависимостью переменной X: .
Проверка гипотезы разбивается на ряд этапов. На первом этапе выдвигается гипотеза , состоящая в том, что дисперсии остатков в обеих генеральных совокупностях равны, т.е. , против альтернативной гипотезы : . Проверка гипотезы осуществляется с помощью статистики
,
имеющей F – распределение при заданном уровне значимости и , степенях свободы. При этом в числителе стоит большая дисперсия. Если , то гипотеза принимается. В противном случае, т.е. при , гипотеза отклоняется на уровне значимости . Если принимается , т.е. дисперсии остатков обеих генеральных совокупностей равны, то вычисляется сводная оценка дисперсии остатков для обеих регрессий:
. (2.21)
На втором этапе, после принятия гипотезы о равенстве дисперсий, выдвигается гипотеза , состоящая в том, что коэффициенты регрессии равны: , против альтернативной гипотезы: : . Проверка гипотезы осуществляется с помощью статистики
, (2.22)
имеющей t-распределение с степенями свободы. Подставив в статистику (2.22) оценки дисперсий коэффициентов регрессий и оценку дисперсии остатков (2.21), получим
.
Из таблицы t-распределения для заданного уровня значимости и числа степеней свободы определяем критическое значение . Тогда, если , то гипотеза принимается. Следовательно, различие между коэффициентами регрессии несущественно, т.е. регрессионные прямые параллельны. Уравнения регрессии могут различаться не угловыми коэффициентами, а своими постоянными и . В противном случае, т.е. при , гипотеза отвергается. С вероятностью можно утверждать, что регрессионные прямые не параллельны.
Дата добавления: 2015-08-20; просмотров: 1011;