Корреляционно-регрессионный анализ

Корреляционно-регрессионный анализ решает две важные, неразрывные и дополняющие друг друга задачи:

1) определение формы связи между признаками х и у, т.е. установление математической модели или аналитического выражения этой связи;

2) измерение тесноты, т.е. меры связи между х и у.

1-ая задача решается с помощью регрессионного анализа, 2-ая – с помощью корреляционного анализа. Последовательность их решения может быть различной: вначале регрессионный анализ, а затем корреляционный либо наоборот.

Регрессионный анализ начинается с выбора формы связи между признаками х и у. Определяющая роль в этом выборе отводится теоретическому анализу (например, рост текучести кадров будет вызывать падение уровня производительности труда; рост заработной платы будет сопровождаться ростом производительности труда и т.д.).

В зависимости от характера изменения признака-результата под влиянием изменения признака-фактора теоретическая форма связи может принимать различные виды уравнений:

– прямой ;

– параболы ;

– гиперболы ;

– показательной функции ;

– и др.

Выбор формы связи всегда является несколько условным, так как статистическая зависимость только приближается к функциональной, а исследователь осуществляет поиск функциональной связи. Для выбора формы связи могут быть использованы такие элементарные методы изучения взаимосвязей, как графический или балансовый.

Теоретическая линия связи, с помощью которой описывается исследуемая статистическая связь, называется уравнением регрессии, выбор, построение и анализ этого уравнения – регрессионным анализом.

Рассмотрим на примере линейной зависимости:

После того, как определён выбор типа функции, необходимо решить уравнение регрессии, то есть найти параметры этого уравнения a₀ и a₁.

Независимо от формы связи параметры a₀ и a₁уравнения регрессии определяются с помощью метода наименьших квадратов.

Система нормальных уравнений метода наименьших квадратов для линейного уравнения имеет вид:

Для нахождения в нашем примере используем таблицу 10.2. В результате получаем:

В результате решения этой системы получаем значения: а₀ =0,279, а₁ = 0,059.

Для нашего примера уравнение регрессии принимает вид:

Подставляя значения x в уравнение регрессии, определяем теоретические уровни признака-результата (таблица 10.2), а затем рассчитываем ошибку (или расхождение), которая не должна превышать 1 %:

. (10.5)

В нашем примере:

Следовательно, форма связи выбрана правильно.

Анализ (экономическая интерпретация) уравнения регрессии основан на параметре a₁, который называют коэффициентом регрессии. Он показывает на сколько в абсолютном выражении изменится признак-результат при изменении признака-фактора на единицу.

В нашем примере: увеличение удельного веса активной части в общей стоимости основных средств на 1 процентный пункт вызывает рост фондоотдачи на 0,059 рублей.

Для более удобного восприятия результатов регрессионного анализа целесообразно рассчитывать коэффициент эластичности. Он выражает зависимость y от x в %-ах и определяется по формуле

. (10.6)

В нашем примере: ; ;

Это означает, что при увеличении удельного веса активной части основных средств на 1 % фондоотдача возрастает на 1,09 %.

Если уравнение регрессии y_x = -0,279 + 0,059x нанести на график (корреляционное поле) и провести на нём ещё одну линию (рисунок 10.2), то на графике получится три линии, расположение которых имеет своё объяснение:

- большой угол наклона (y_x) теоретической линии связи (2) к горизонтальной линии (3) свидетельствует о наличии тесной связи между x и y.

- несовпадение теоретической линии (2) связи (y_x) и эмпирической (1) (ломаной линии) объясняется действием на признак-результат не только фактора x, но и других факторов.

Значение уравнения регрессии на практике: предполагая, что признак-фактор примет определённое значение, можно составить прогноз признака-результата.

Рисунок 10.2 – Корреляционное поле зависимости фондоотдачи (у) от удельного веса активной части основных средств (x)

Корреляционный анализ предполагает оценку тесноты связи между признаками x и y.

В случае линейной зависимости для оценки степени тесноты этой связи используется линейный коэффициент корреляции (он нашёл наибольшее распространение на практике).

В теории статистики существует множество формул для определения линейного коэффициента корреляции. Исходным положением является следующее: линейный коэффициент корреляции представляет собой среднюю величину из произведений нормированных отклонений для x и y:

(10.7)

Другой вид формулы получается в том случае, если и как постоянные величины выносятся за знак суммы:

(10.8)

Путём математических преобразований можно данную формулу привести к виду:

, при этом: (10.9)

, (10.10)

. (10.11)

Рассчитаем необходимые составляющие последней формулы для нашего примера (по таблице 10.2):

; ; .

Из раздела 10.3 , следовательно .

Все дальнейшие необходимые расчеты проведем в таблице 10.2. По данным графы 5:

;

а квадрат средней величины признака-фактора: .

Следовательно: .

По данным графы 8 таблицы 10.2: ;

а квадрат среднего значения признака-результата: .

Тогда .

Подставляя полученные значения в формулу 10.9, получаем

Иногда линейный коэффициент корреляции удобно рассчитывать по итоговым суммам:

(10.12)

В нашем примере (по данным таблицы 10.2):

Достаточно часто линейный коэффициент корреляции может быть рассчитан и по более простой формуле

. (10.13)

В примере: .

Линейный коэффициент корреляции может быть рассчитан и по другим производным от указанных формул, однако методика его исчисления на результат не влияет.

Коэффициент корреляции может принимать значения от -1 до +1. При этом положительное значение коэффициента указывает на наличие прямой связи, а отрицательное – обратной.

В оценке тесноты связи обычно руководствуются следующими соотношениями:

[r] связь

< 0,3 слабая

0,3:0,5 умеренная

0,5:0,7 заметная

> 0,7 высокая (тесная).

В нашем примере r = 0,87, следовательно, между признаками существует прямая тесная связь.

Учитывая, что r рассчитывается по выборке, он, как и любой выборочный показатель, подвержен случайным ошибкам. Оценка значимости линейного коэффициента корреляции производится по критерию Стъюдента:

, (10.14)

где – средняя квадратическая ошибка r.

При небольшом n (n < 30) средняя ошибка:

. (10.15)

Тогда расчетное значение t-критерия определяется по формуле

(10.16)

и сравнивается с табличным.

Условие ≥ должно выполняться.

В нашем примере:

При n = 10 t = 3,35.

Следовательно, > , а это означает, что полученное значение коэффициента корреляции достоверно.

Линейный коэффициент корреляции служит показателем тесноты связи в линейных зависимостях. Однако универсальным показателем тесноты связи считается теоретическое корреляционное отношение. Оно представляет собой относительную величину сравнения среднего квадратического отклонения теоретических уровней признака результата от и среднего квадратического отклонения эмпирических уровней признака результата от :

. (10.17)

факторная общая

дисперсия дисперсия

Эта формула может быть преобразована следующим образом:

. (10.18)

Если учесть, что дисперсия эмпирического ряда характеризует общую вариацию признака-результата за счёт всех факторов (включая и фактор x), а дисперсия теоретического ряда характеризует только ту часть вариации, которая обусловлена действием фактора x, то отношение второй дисперсии к первой показывает, какую долю в общей дисперсии занимает дисперсия, вызванная фактором x.

Это отношение получило название «теоретический коэффициент детерминации»:

. (10.19)