Парная регрессия и корреляция 5 страница

получим

Подставив этот результат в формулу коэффициента множественной детерминации B, приведем ее к виду

Итак, мы определили способы оценки тесноты связи одной переменной (Y) с совокупностью переменных , включенных в анализ социально-экономических явлений. При этом следует отметить, что если переменные , коррелируют друг с другом, то на значение коэффициента парной корреляции между Y и частично сказывается влияние других переменных. Вполне возможно, что корреляция между Y и непрямая, а косвенная, возникающая вследствие воздействия других переменных на Y. Поэтому для определения интенсивности связи между Y и следует зафиксировать или исключить влияние других переменных . Интенсивность такой связи определяется с помощью коэффициентов частной корреляции. Исключенные переменные могут закрепляться как на средних уровнях, так и на уровнях, выбранных в соответствии с интересующими нас участками изменения переменных, между которыми определяется связь в чистой форме.

Изучим частную корреляцию в случае взаимосвязи трех переменных. Определим коэффициенты частной корреляции между переменными Y и при исключении влияния , а также частной корреляции между переменными Y и при исключении влияния :

. (2.12)

Как видно из приведенных формул, вычисление коэффициентов частной корреляции сводится к нахождению коэффициентов парной корреляции. Из формул (2.12) следует, что если (переменные и не коррелированы), то и ; если же , то . Это означает, что с уменьшением взаимосвязи между факторами и коэффициент частной корреляции по сравнению с соответствующим коэффициентом парной корреляции не убывает, причем увеличение коэффициентов частной корреляции тем сильнее, чем больше или . Кроме того, при , а при ; если же и имеют противоположные знаки, то всегда . Отметим, что коэффициент множественной корреляции также связан с частными коэффициентами корреляции по формуле

или

Обобщим формулы (2.12) на любое число факторных признаков. Для этого воспользуемся формулами, связывающими коэффициенты частной и парной корреляций с коэффициентами частной регрессии:

Перемножив правые и левые части приведенных формул, получим:

. (2.13)

Обобщая формулу (2.13), можно записать:

Аналогично можно обобщить и формулы (2.12):

. (2.14)

Как видно из формулы (2.14), вычисление коэффициентов частной корреляции порядка m сводится к вычислению коэффициентов частной корреляциипорядка m-1. Поэтому применениеформулы (2.14) предполагаетзнание коэффициентов парной корреляции, что позволяет вычислять коэффициенты частной корреляции, которые в свою очередь дают возможность вычислять коэффициенты частной корреляции более высокого порядка.

В множественном регрессионном анализе определяют часть из тех изменений, которые в данном явлении зависят от одного факторного признака при исключении влияния остальных факторных признаков, рассматриваемых в регрессии. Для этого используется коэффициент частной детерминации.

Остановимся на случае линейной зависимости результативного признака

Y от факторных признаков и .

Для оценки части вариации Y, объясняемой вариацией фактора при исключении влияния , определим формулы коэффициента частной детерминации по данным, из которых исключены значения фактора :

Используя формулу

и учитывая, что , получаем выражение коэффициента частной детерминации:

Выполнив элементарные преобразования, приведем это выражение к виду

. (2.15)

Из формулы (2.15) следует, что коэффициент частной детерминации вычисляется по коэффициентам парной детерминации. Эта формула позволяет устанавливать часть вариации, обусловленной зависимостью результативного признака Y от фактора при исключении влияния .

Укажем формулы, связывающие коэффициенты множественной и частной корреляций, регрессии и детерминации. Между коэффициентами множественной корреляции R и детерминации B существует следующее соотношение:

или

Такие же соотношения справедливы и для коэффициентов частной корреляции и частной детерминации. Например,

Коэффициент множественной детерминации равен сумме коэффициентов парной детерминации, если переменные попарно не коррелированы, т.е.

Кроме того, справедливо следующее соотношение между коэффициентами частной детерминации и регрессии:

2.6. Проверка статистической существенности (значимости) параметров множественной регрессии и показателей интенсивности корреляционной связи. Как отмечалось, каждый параметр корреляционно-регрессионного анализа является случайной величиной. Поэтому для ответа на вопрос, могут ли обнаруженные различия между оценками параметров корреляционно-регрессионного анализа и самими параметрами быть приписаны случайным колебаниям в выборке или они отражают существенное изменение условий взаимосвязи переменных, проводится проверка статистической значимости оценок на основе статистики.

Для проверки статистической значимости коэффициентов регрессии , выдвигаются следующие гипотезы:

- переменная не оказывает существенного влияния на зависимую переменную Y;

- переменная оказывает существенное влияние на зависимую переменную Y.

Для проверки гипотезы используется статистика

(2.16)

где дисперсия остатков; - элемент главной диагонали матрицы . Статистика (2.16) имеет t-распределение Стьюдента с степенями свободы. Если , то с вероятностью нулевая гипотеза отвергается, т.е. с вероятностью можно утверждать, что переменная оказывает значимое частное влияние на переменную Y. В противном случае, т.е. при , принимается гипотеза . Следовательно, на основе данной выборки нельзя окончательно решить, значимо ли частное влияние переменной на переменную Y.

Оценка статистической значимости парных коэффициентов корреляции проводится аналогично проверке гипотезы о статистической значимости выборочного коэффициента корреляции. Статистическая значимость коэффициентов частной корреляции проверяется также аналогичным способом, изменяется лишь число степеней свободы. Таким образом, для проверки гипотезы , состоящей в том, что различие между выборочным частным коэффициентом корреляции и частным коэффициентом корреляции генеральной совокупности незначимо, вычисляется статистика

и сравнивается с критическим значением , найденным по таблице t-распределения при уровне значимости и числе степеней свободы . Принятие или отклонение гипотезы проводится по правилу, которое описано в п. 1.8. Проверку значимости частного коэффициента корреляции можно осуществить, используя критические значения коэффициента корреляции и z-преобразование Фишера.

Оценка статистической значимости коэффициента множественной детерминации проводится с помощью статистики

которая имеет F-распределение с и степенями свободы. Расчетное значение статистики сравнивается с критическим значением , которое определяется по таблице F-распределения при заданном уровне значимости и степенях свободы и . Если , то вычисленный коэффициент детерминации значимо отличается от нуля. В противном случае, т.е. при , принимается нулевая гипотеза : , состоящая в том, что ни одна из переменных , включенных в уравнение регрессии, не оказывает существенного влияния на зависимую переменную.

Для оценки существенности коэффициента частной детерминации применяется статистика

которая имеет F-распределение с и степенями свободы. Здесь p - число переменных, исключенных при вычислении коэффициентов частной детерминации. Процедура проверки статистической значимости коэффициента частной детерминации аналогична процедуре проверки статистической значимости коэффициента множественной детерминации.

Так как между коэффициентами множественной корреляции и детерминации выполняется равенство

или ,

то о значимости коэффициента множественной корреляции судят по результату проверки значимости коэффициента множественной детерминации. Кроме того, если , то с вероятностью 0,99 можно считать R статистически значимым.

Следует отметить, что дополнительное исследование изучаемой регрессионной модели может показать, что не все переменные, введенные в модель, имеют одинаковое значение в исследуемой регрессии. Поэтому, прежде чем вынести решение об исключении переменных из анализа вследствие их незначимого влияния на зависимую переменную, проводят исследование с помощью коэффициента детерминации. Для проверки предположения о включении в регрессионную модель переменных можно применить критерий, который оценивает систематическое влияние дополнительно включенных переменных . При этом рассматриваются две регрессионные модели:

, (2.17)

(2.18)

для которых , где - число переменных модели (2.18); m - число переменныхмодели (2.17). В регрессии (2.17) по сравнению с (2.18) содержится дополнительно переменных . Для проверки гипотезы о том, вносят ли переменных существенную долю в объяснение вариации переменной Y, сформулируем гипотезу , состоящую в том, что , при альтернативной гипотезе : . Отметим, что влияние первых переменных не оценивается. При проверке гипотезы используется статистика

, (2.19)

имеющая F-распределение с и степенями свободы. В формуле (2.19) - коэффициент детерминации регрессии с m переменными, а - коэффициент детерминации регрессии с переменными. Разность в числителе формулы (2.19) является мерой дополнительного объяснения вариации переменной Y за счет включения переменных. Поэтому число степеней свободы числителя равно . В критерии базой сравнения служит неопределенность функции регрессии с m переменными, поэтому число степеней свободы знаменателя равно . Если , то включенные дополнительно переменные совместно не оказывают значимого влияния на переменную Y. В противном случае, при , гипотеза на уровне значимости отвергается, т.е. включенные переменные оказывают существенное влияние на вариацию переменной Y. Критическое значение находят по таблице F-распределения при заданном уровне значимости и , степенях свободы.

Важной проблемой регрессионного анализа является сравнение оценок параметров регрессии. При этом выделяются две проблемы:

1) сравнение коэффициентов частной регрессии и одной и той же функции регрессии;

2) сравнение оценок параметров двух функций регрессии для двух различных выборок.

Для решения первой проблемы формулируем нулевую гипотезу , состоящую в том, что , т.е. коэффициенты частной регрессии в генеральной совокупности равны. В альтернативной гипотезе предполагаем, что коэффициенты частной регрессии в генеральной совокупности значимо различаются. При этом если : , то используется двусторонняя критическая область, если же : , то используется односторонняя критическая область. При проверке нулевой гипотезы может быть использован критерий

, (2.20)

имеющий t-распределение с степенями свободы. В формуле (2.20) , и - элементы матрицы . Решение о принятии гипотезы принимается путем сравнения с квантилем t-распределения для уровня значимости при степенях свободы. Если , то гипотеза с вероятностью отвергается, т.е. коэффициенты регрессии и статистически значимо различны. В противном случае гипотеза принимается.

Сравним оценки параметров регрессии двух функций для двух выборок объемами и . При этом предположим, что:

1) в обеих генеральных совокупностях исследуется содержательно одинаковая зависимость переменной Y от переменной X;

2) пары наблюдений и , являются результатами двух независимых выборок объемами и из генеральных совокупностей;

3) по результатам каждой выборки строится простая линейная регрессия и находится дисперсия остатков:

Для сравнения оценок параметров регрессий выдвигается нулевая гипотеза , состоящая в том, что обе выборки произведены из генеральных совокупностей в среднем с одинаковой зависимостью переменной Y от переменной X: .Альтернативная гипотеза заключается в том, что выборки произведены из генеральных совокупностей с разной зависимостью переменной X: .

Проверка гипотезы разбивается на ряд этапов. На первом этапе выдвигается гипотеза , состоящая в том, что дисперсии остатков в обеих генеральных совокупностях равны, т.е. , против альтернативной гипотезы : . Проверка гипотезы осуществляется с помощью статистики

имеющей F – распределение при заданном уровне значимости и , степенях свободы. При этом в числителе стоит большая дисперсия. Если , то гипотеза принимается. В противном случае, т.е. при , гипотеза отклоняется на уровне значимости . Если принимается , т.е. дисперсии остатков обеих генеральных совокупностей равны, то вычисляется сводная оценка дисперсии остатков для обеих регрессий:

. (2.21)

На втором этапе, после принятия гипотезы о равенстве дисперсий, выдвигается гипотеза , состоящая в том, что коэффициенты регрессии равны: , против альтернативной гипотезы: : . Проверка гипотезы осуществляется с помощью статистики

, (2.22)

имеющей t-распределение с степенями свободы. Подставив в статистику (2.22) оценки дисперсий коэффициентов регрессий и оценку дисперсии остатков (2.21), получим

Из таблицы t-распределения для заданного уровня значимости и числа степеней свободы определяем критическое значение . Тогда, если , то гипотеза принимается. Следовательно, различие между коэффициентами регрессии несущественно, т.е. регрессионные прямые параллельны. Уравнения регрессии могут различаться не угловыми коэффициентами, а своими постоянными и . В противном случае, т.е. при , гипотеза отвергается. С вероятностью можно утверждать, что регрессионные прямые не параллельны.

<8910 11 12 13 14 >

Дата добавления: 2015-08-20; просмотров: 1130;