Корреляционно-регрессионный анализ

 

Корреляционно-регрессионный анализ решает две важные, неразрывные и дополняющие друг друга задачи:

1) определение формы связи между признаками х и у, т.е. установление математической модели или аналитического выражения этой связи;

2) измерение тесноты, т.е. меры связи между х и у.

1-ая задача решается с помощью регрессионного анализа, 2-ая – с помощью корреляционного анализа. Последовательность их решения может быть различной: вначале регрессионный анализ, а затем корреляционный либо наоборот.

Регрессионный анализ начинается с выбора формы связи между признаками х и у. Определяющая роль в этом выборе отводится теоретическому анализу (например, рост текучести кадров будет вызывать падение уровня производительности труда; рост заработной платы будет сопровождаться ростом производительности труда и т.д.).

В зависимости от характера изменения признака-результата под влиянием изменения признака-фактора теоретическая форма связи может принимать различные виды уравнений:

– прямой ;

– параболы ;

– гиперболы ;

– показательной функции ;

– и др.

Выбор формы связи всегда является несколько условным, так как статистическая зависимость только приближается к функциональной, а исследователь осуществляет поиск функциональной связи. Для выбора формы связи могут быть использованы такие элементарные методы изучения взаимосвязей, как графический или балансовый.

Теоретическая линия связи, с помощью которой описывается исследуемая статистическая связь, называется уравнением регрессии, выбор, построение и анализ этого уравнения – регрессионным анализом.

Рассмотрим на примере линейной зависимости:

.

После того, как определён выбор типа функции, необходимо решить уравнение регрессии, то есть найти параметры этого уравнения a0 и a1.

Независимо от формы связи параметры a0 и a1 уравнения регрессии определяются с помощью метода наименьших квадратов.

Система нормальных уравнений метода наименьших квадратов для линейного уравнения имеет вид:

.

Для нахождения в нашем примере используем таблицу 10.2. В результате получаем:

.

В результате решения этой системы получаем значения: а0 =0,279, а1 = 0,059.

Для нашего примера уравнение регрессии принимает вид:

.

Подставляя значения x в уравнение регрессии, определяем теоретические уровни признака-результата (таблица 10.2), а затем рассчитываем ошибку (или расхождение), которая не должна превышать 1 %:

. (10.5)

В нашем примере:

 

.

Следовательно, форма связи выбрана правильно.

Анализ (экономическая интерпретация) уравнения регрессии основан на параметре a1, который называют коэффициентом регрессии. Он показывает на сколько в абсолютном выражении изменится признак-результат при изменении признака-фактора на единицу.

В нашем примере: увеличение удельного веса активной части в общей стоимости основных средств на 1 процентный пункт вызывает рост фондоотдачи на 0,059 рублей.

Для более удобного восприятия результатов регрессионного анализа целесообразно рассчитывать коэффициент эластичности. Он выражает зависимость y от x в %-ах и определяется по формуле

. (10.6)

В нашем примере: ; ;

 

.

Это означает, что при увеличении удельного веса активной части основных средств на 1 % фондоотдача возрастает на 1,09 %.

Если уравнение регрессии yx = -0,279 + 0,059x нанести на график (корреляционное поле) и провести на нём ещё одну линию (рисунок 10.2), то на графике получится три линии, расположение которых имеет своё объяснение:

- большой угол наклона (yx) теоретической линии связи (2) к горизонтальной линии (3) свидетельствует о наличии тесной связи между x и y.

- несовпадение теоретической линии (2) связи (yx) и эмпирической (1) (ломаной линии) объясняется действием на признак-результат не только фактора x, но и других факторов.

Значение уравнения регрессии на практике: предполагая, что признак-фактор примет определённое значение, можно составить прогноз признака-результата.

Рисунок 10.2 – Корреляционное поле зависимости фондоотдачи (у) от удельного веса активной части основных средств (x)

 

Корреляционный анализ предполагает оценку тесноты связи между признаками x и y.

В случае линейной зависимости для оценки степени тесноты этой связи используется линейный коэффициент корреляции (он нашёл наибольшее распространение на практике).

В теории статистики существует множество формул для определения линейного коэффициента корреляции. Исходным положением является следующее: линейный коэффициент корреляции представляет собой среднюю величину из произведений нормированных отклонений для x и y:

 

(10.7)

Другой вид формулы получается в том случае, если и как постоянные величины выносятся за знак суммы:

 

(10.8)

Путём математических преобразований можно данную формулу привести к виду:

 

, при этом: (10.9)

 

, (10.10)

 

. (10.11)

Рассчитаем необходимые составляющие последней формулы для нашего примера (по таблице 10.2):

; ; .

Из раздела 10.3 , следовательно .

Все дальнейшие необходимые расчеты проведем в таблице 10.2. По данным графы 5:

;

а квадрат средней величины признака-фактора: .

 

Следовательно: .

По данным графы 8 таблицы 10.2: ;

а квадрат среднего значения признака-результата: .

Тогда .

Подставляя полученные значения в формулу 10.9, получаем

.

Иногда линейный коэффициент корреляции удобно рассчитывать по итоговым суммам:

(10.12)

 

В нашем примере (по данным таблицы 10.2):

.

 

Достаточно часто линейный коэффициент корреляции может быть рассчитан и по более простой формуле

. (10.13)

В примере: .

Линейный коэффициент корреляции может быть рассчитан и по другим производным от указанных формул, однако методика его исчисления на результат не влияет.

Коэффициент корреляции может принимать значения от -1 до +1. При этом положительное значение коэффициента указывает на наличие прямой связи, а отрицательное – обратной.

В оценке тесноты связи обычно руководствуются следующими соотношениями:

[r] связь

< 0,3 слабая

0,3:0,5 умеренная

0,5:0,7 заметная

> 0,7 высокая (тесная).

В нашем примере r = 0,87, следовательно, между признаками существует прямая тесная связь.

Учитывая, что r рассчитывается по выборке, он, как и любой выборочный показатель, подвержен случайным ошибкам. Оценка значимости линейного коэффициента корреляции производится по критерию Стъюдента:

, (10.14)

где – средняя квадратическая ошибка r.

При небольшом n (n < 30) средняя ошибка:

. (10.15)

Тогда расчетное значение t-критерия определяется по формуле

(10.16)

и сравнивается с табличным.

Условие должно выполняться.

В нашем примере:

При n = 10 t = 3,35.

Следовательно, > , а это означает, что полученное значение коэффициента корреляции достоверно.

Линейный коэффициент корреляции служит показателем тесноты связи в линейных зависимостях. Однако универсальным показателем тесноты связи считается теоретическое корреляционное отношение. Оно представляет собой относительную величину сравнения среднего квадратического отклонения теоретических уровней признака результата от и среднего квадратического отклонения эмпирических уровней признака результата от :

 

. (10.17)

факторная общая

дисперсия дисперсия

Эта формула может быть преобразована следующим образом:

. (10.18)

Если учесть, что дисперсия эмпирического ряда характеризует общую вариацию признака-результата за счёт всех факторов (включая и фактор x), а дисперсия теоретического ряда характеризует только ту часть вариации, которая обусловлена действием фактора x, то отношение второй дисперсии к первой показывает, какую долю в общей дисперсии занимает дисперсия, вызванная фактором x.

Это отношение получило название «теоретический коэффициент детерминации»:

. (10.19)

Если учесть, что остаточная дисперсия (то есть дисперсия, вызванная действием других, неучтённых факторов) может быть рассчитана по формуле

 

(10.20)

по правилу сложения дисперсий:

= (т.е. вызванная фактором x) + (вызванная другими факторами).

Следовательно:

= - . (10.21)

Тогда используемое в формуле теоретического корреляционного отношения выражение:

 

. (10.22)

Рассчитанное в таком виде корреляционное отношение обычно называют индексом корреляции:

 

. (10.23)

Индекс корреляции применяется для оценки тесноты связи линейной и нелинейной, парной и множественной.

Индекс корреляции может находиться в пределах от 0 до 1:

R = 1 – связь функциональная ,

R = 0 – связь отсутствует .

Интерпретация индекса корреляции обычно производится аналогично коэффициенту корреляции.

Рассчитаем индекс корреляции для нашего примера (по данным таблицы 10.2.):

,

,

 

.

 








Дата добавления: 2016-01-16; просмотров: 1679;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.026 сек.