Парная регрессия и корреляция 5 страница
получим
.
Подставив этот результат в формулу коэффициента множественной детерминации B, приведем ее к виду
.
Итак, мы определили способы оценки тесноты связи одной переменной (Y) с совокупностью переменных
, включенных в анализ социально-экономических явлений. При этом следует отметить, что если переменные
, коррелируют друг с другом, то на значение коэффициента парной корреляции между Y и
частично сказывается влияние других переменных. Вполне возможно, что корреляция между Y и
непрямая, а косвенная, возникающая вследствие воздействия других переменных
на Y. Поэтому для определения интенсивности связи между Y и
следует зафиксировать или исключить влияние других переменных
. Интенсивность такой связи определяется с помощью коэффициентов частной корреляции. Исключенные переменные могут закрепляться как на средних уровнях, так и на уровнях, выбранных в соответствии с интересующими нас участками изменения переменных, между которыми определяется связь в чистой форме.
Изучим частную корреляцию в случае взаимосвязи трех переменных. Определим коэффициенты частной корреляции между переменными Y и
при исключении влияния
, а также частной корреляции между переменными Y и
при исключении влияния
:
. (2.12)
Как видно из приведенных формул, вычисление коэффициентов частной корреляции сводится к нахождению коэффициентов парной корреляции. Из формул (2.12) следует, что если
(переменные
и
не коррелированы), то
и
; если же
, то
. Это означает, что с уменьшением взаимосвязи между факторами
и
коэффициент частной корреляции по сравнению с соответствующим коэффициентом парной корреляции не убывает, причем увеличение коэффициентов частной корреляции тем сильнее, чем больше
или
. Кроме того, при
, а при
; если же
и
имеют противоположные знаки, то всегда
. Отметим, что коэффициент множественной корреляции также связан с частными коэффициентами корреляции по формуле

или
.
Обобщим формулы (2.12) на любое число факторных признаков. Для этого воспользуемся формулами, связывающими коэффициенты частной и парной корреляций с коэффициентами частной регрессии:
,
.
Перемножив правые и левые части приведенных формул, получим:
,
. (2.13)
Обобщая формулу (2.13), можно записать:
.
Аналогично можно обобщить и формулы (2.12):
. (2.14)
Как видно из формулы (2.14), вычисление коэффициентов частной корреляции порядка m сводится к вычислению коэффициентов частной корреляциипорядка m-1. Поэтому применениеформулы (2.14) предполагаетзнание коэффициентов парной корреляции, что позволяет вычислять коэффициенты частной корреляции, которые в свою очередь дают возможность вычислять коэффициенты частной корреляции более высокого порядка.
В множественном регрессионном анализе определяют часть из тех изменений, которые в данном явлении зависят от одного факторного признака при исключении влияния остальных факторных признаков, рассматриваемых в регрессии. Для этого используется коэффициент частной детерминации.
Остановимся на случае линейной зависимости результативного признака
Y от факторных признаков
и
.
Для оценки части вариации Y, объясняемой вариацией фактора
при исключении влияния
, определим формулы коэффициента частной детерминации
по данным, из которых исключены значения фактора
:

Используя формулу

и учитывая, что
, получаем выражение коэффициента частной детерминации:
.
Выполнив элементарные преобразования, приведем это выражение к виду
. (2.15)
Из формулы (2.15) следует, что коэффициент частной детерминации вычисляется по коэффициентам парной детерминации. Эта формула позволяет устанавливать часть вариации, обусловленной зависимостью результативного признака Y от фактора
при исключении влияния
.
Укажем формулы, связывающие коэффициенты множественной и частной корреляций, регрессии и детерминации. Между коэффициентами множественной корреляции R и детерминации B существует следующее соотношение:

или
.
Такие же соотношения справедливы и для коэффициентов частной корреляции и частной детерминации. Например,
.
Коэффициент множественной детерминации равен сумме коэффициентов парной детерминации, если переменные
попарно не коррелированы, т.е.
.
Кроме того, справедливо следующее соотношение между коэффициентами частной детерминации и регрессии:
.
2.6. Проверка статистической существенности (значимости) параметров множественной регрессии и показателей интенсивности корреляционной связи. Как отмечалось, каждый параметр корреляционно-регрессионного анализа является случайной величиной. Поэтому для ответа на вопрос, могут ли обнаруженные различия между оценками параметров корреляционно-регрессионного анализа и самими параметрами быть приписаны случайным колебаниям в выборке или они отражают существенное изменение условий взаимосвязи переменных, проводится проверка статистической значимости оценок на основе
статистики.
Для проверки статистической значимости коэффициентов регрессии
, выдвигаются следующие гипотезы:
- переменная
не оказывает существенного влияния на зависимую переменную Y;
- переменная
оказывает существенное влияние на зависимую переменную Y.
Для проверки гипотезы
используется статистика
(2.16)
где
дисперсия остатков;
- элемент главной диагонали матрицы
. Статистика (2.16) имеет t-распределение Стьюдента с
степенями свободы. Если
, то с вероятностью
нулевая гипотеза
отвергается, т.е. с вероятностью
можно утверждать, что переменная
оказывает значимое частное влияние на переменную Y. В противном случае, т.е. при
, принимается гипотеза
. Следовательно, на основе данной выборки нельзя окончательно решить, значимо ли частное влияние переменной
на переменную Y.
Оценка статистической значимости парных коэффициентов корреляции проводится аналогично проверке гипотезы о статистической значимости выборочного коэффициента корреляции. Статистическая значимость коэффициентов частной корреляции проверяется также аналогичным способом, изменяется лишь число степеней свободы. Таким образом, для проверки гипотезы
, состоящей в том, что различие между выборочным частным коэффициентом корреляции и частным коэффициентом корреляции генеральной совокупности незначимо, вычисляется статистика

и сравнивается с критическим значением
, найденным по таблице t-распределения при уровне значимости
и числе степеней свободы
. Принятие или отклонение гипотезы
проводится по правилу, которое описано в п. 1.8. Проверку значимости частного коэффициента корреляции можно осуществить, используя критические значения коэффициента корреляции и z-преобразование Фишера.
Оценка статистической значимости коэффициента множественной детерминации проводится с помощью статистики
,
которая имеет F-распределение с
и
степенями свободы. Расчетное значение статистики
сравнивается с критическим значением
, которое определяется по таблице F-распределения при заданном уровне значимости
и степенях свободы
и
. Если
, то вычисленный коэффициент детерминации значимо отличается от нуля. В противном случае, т.е. при
, принимается нулевая гипотеза
:
, состоящая в том, что ни одна из переменных
, включенных в уравнение регрессии, не оказывает существенного влияния на зависимую переменную.
Для оценки существенности коэффициента частной детерминации применяется статистика
,
которая имеет F-распределение с
и
степенями свободы. Здесь p - число переменных, исключенных при вычислении коэффициентов частной детерминации. Процедура проверки статистической значимости коэффициента частной детерминации аналогична процедуре проверки статистической значимости коэффициента множественной детерминации.
Так как между коэффициентами множественной корреляции и детерминации выполняется равенство
или
,
то о значимости коэффициента множественной корреляции судят по результату проверки значимости коэффициента множественной детерминации. Кроме того, если
, то с вероятностью 0,99 можно считать R статистически значимым.
Следует отметить, что дополнительное исследование изучаемой регрессионной модели может показать, что не все переменные, введенные в модель, имеют одинаковое значение в исследуемой регрессии. Поэтому, прежде чем вынести решение об исключении переменных из анализа вследствие их незначимого влияния на зависимую переменную, проводят исследование с помощью коэффициента детерминации. Для проверки предположения о включении в регрессионную модель переменных
можно применить критерий, который оценивает систематическое влияние дополнительно включенных переменных
. При этом рассматриваются две регрессионные модели:
, (2.17)
(2.18)
для которых
, где
- число переменных модели (2.18); m - число переменныхмодели (2.17). В регрессии (2.17) по сравнению с (2.18) содержится дополнительно
переменных
. Для проверки гипотезы о том, вносят ли
переменных существенную долю в объяснение вариации переменной Y, сформулируем гипотезу
, состоящую в том, что
, при альтернативной гипотезе
:
. Отметим, что влияние первых
переменных не оценивается. При проверке гипотезы
используется статистика
, (2.19)
имеющая F-распределение с
и
степенями свободы. В формуле (2.19)
- коэффициент детерминации регрессии с m переменными, а
- коэффициент детерминации регрессии с
переменными. Разность
в числителе формулы (2.19) является мерой дополнительного объяснения вариации переменной Y за счет включения
переменных. Поэтому число степеней свободы числителя равно
. В критерии базой сравнения служит неопределенность функции регрессии с m переменными, поэтому число степеней свободы знаменателя равно
. Если
, то включенные дополнительно
переменные совместно не оказывают значимого влияния на переменную Y. В противном случае, при
, гипотеза
на уровне значимости
отвергается, т.е. включенные
переменные оказывают существенное влияние на вариацию переменной Y. Критическое значение
находят по таблице F-распределения при заданном уровне значимости
и
,
степенях свободы.
Важной проблемой регрессионного анализа является сравнение оценок параметров регрессии. При этом выделяются две проблемы:
1) сравнение коэффициентов частной регрессии
и
одной и той же функции регрессии;
2) сравнение оценок параметров двух функций регрессии для двух различных выборок.
Для решения первой проблемы формулируем нулевую гипотезу
, состоящую в том, что
, т.е. коэффициенты частной регрессии в генеральной совокупности равны. В альтернативной гипотезе
предполагаем, что коэффициенты частной регрессии в генеральной совокупности значимо различаются. При этом если
:
, то используется двусторонняя критическая область, если же
:
, то используется односторонняя критическая область. При проверке нулевой гипотезы
может быть использован критерий
, (2.20)
имеющий t-распределение с
степенями свободы. В формуле (2.20)
,
и
- элементы матрицы
. Решение о принятии гипотезы
принимается путем сравнения
с квантилем t-распределения для уровня значимости
при
степенях свободы. Если
, то гипотеза
с вероятностью
отвергается, т.е. коэффициенты регрессии
и
статистически значимо различны. В противном случае гипотеза
принимается.
Сравним оценки параметров регрессии двух функций для двух выборок объемами
и
. При этом предположим, что:
1) в обеих генеральных совокупностях исследуется содержательно одинаковая зависимость переменной Y от переменной X;
2) пары наблюдений
и
, являются результатами двух независимых выборок объемами
и
из генеральных совокупностей;
3) по результатам каждой выборки строится простая линейная регрессия и находится дисперсия остатков:

Для сравнения оценок параметров регрессий выдвигается нулевая гипотеза
, состоящая в том, что обе выборки произведены из генеральных совокупностей в среднем с одинаковой зависимостью переменной Y от переменной X:
.Альтернативная гипотеза
заключается в том, что выборки произведены из генеральных совокупностей с разной зависимостью переменной X:
.
Проверка гипотезы
разбивается на ряд этапов. На первом этапе выдвигается гипотеза
, состоящая в том, что дисперсии остатков в обеих генеральных совокупностях равны, т.е.
, против альтернативной гипотезы
:
. Проверка гипотезы
осуществляется с помощью статистики
,
имеющей F – распределение при заданном уровне значимости
и
,
степенях свободы. При этом в числителе стоит большая дисперсия. Если
, то гипотеза
принимается. В противном случае, т.е. при
, гипотеза
отклоняется на уровне значимости
. Если принимается
, т.е. дисперсии остатков обеих генеральных совокупностей равны, то вычисляется сводная оценка дисперсии остатков
для обеих регрессий:
. (2.21)
На втором этапе, после принятия гипотезы о равенстве дисперсий, выдвигается гипотеза
, состоящая в том, что коэффициенты регрессии равны:
, против альтернативной гипотезы:
:
. Проверка гипотезы
осуществляется с помощью статистики
, (2.22)
имеющей t-распределение с
степенями свободы. Подставив в статистику (2.22) оценки дисперсий коэффициентов регрессий и оценку дисперсии остатков (2.21), получим
.
Из таблицы t-распределения для заданного уровня значимости
и числа степеней свободы
определяем критическое значение
. Тогда, если
, то гипотеза
принимается. Следовательно, различие между коэффициентами регрессии несущественно, т.е. регрессионные прямые параллельны. Уравнения регрессии могут различаться не угловыми коэффициентами, а своими постоянными
и
. В противном случае, т.е. при
, гипотеза
отвергается. С вероятностью
можно утверждать, что регрессионные прямые не параллельны.
Дата добавления: 2015-08-20; просмотров: 1104;
