Модель линейной регрессии

Изучение зависимостей экономических показателей начнем со случая двух переменных X и Y: Y=f(X). Этот метод наиболее прост и может быть представлен графически.

Для начала нужно установить, связаны ли эти переменные между собой, и, если да, то определить формулу связи. Для анализа данные представляют в виде таблицы:

X	Y
x₁	y₁
x₂	y₂
...	...
x_n	y_n

По таблице строим корреляционное поле (диаграмму рассеивания).

y_i

x_i

Рис. 1

Корреляционным полем (диаграммой рассеивания) будем называть систему точек (x_i, y_i), (i=1,…,n), изображенную на координатной плоскости XOY:

Точка с координатами называется центром рассеяния.

По виду корреляционного поля можно предположить, является ли зависимость между y и x линейной или нелинейной.

Значения (большие или малые) еще не дают характеристику того, если связь между х и у.

На рис.2 , рис.3 и рис.4 показана ситуация, когда малы, но в одном случае (рис.2) зависимости y=f(x) – нет. В другом случае зависимость есть и она линейная. В третьем случае есть явно нелинейная зависимость.

Рис. 3

Рис. 2

Рис. 4

Поэтому вводится еще одна статистика коэффициент корреляции:

Коэффициент корреляции является показателем плотности линейной взаимосвязи.

Свойства коэффициента корреляции:

1) –1 £ r_xy £ 1;

2) если r_xy >0, то зависимость между фактором х и y прямая: с ростом х показатель y также возрастает. Если r_xy <0, то зависимость между фактором х и y обратная - с ростом х показатель y уменьшается

3) Если связь между х и у – строго линейная. Если , либо связи нет, либо связь резко нелинейная.

4) Коэффициент корреляции величина симметричная - r_xy= r_yx

5) Корреляция фактора самого с собой равна 1: r_xx=1

Существует следующая градация тесноты линейной связи между Х и У в зависимости от величины коэффициента корреляции.

Если то линейная связь между Х и У тесная.

Если то линейная связь между Х и У достаточная.

Если то линейная связь между Х и У слабая.

Если то линейной связи между Х и У нет.

Подбор параметров прямой регрессии по методу наименьших квадратов (МНК)

Парной (однофакторной) линейной регрессией называется линейная зависимость между зависимым показателем Y и независимым фактором Х.

Пытаемся описать связь между х и у зависимостью (1).

В силу случайных влияний показатель y_i является случайным и может быть выражен формулой

y_i=b₀+b₁x_i+e_i i=1..n (2)

e_i – случайное отклонение.

Отклонение (ошибка) исходных данных y_i от модельных данных =y(x_i) вычисляется по формуле . Обозначим

y_i

x_i

y

x

y=b₀+b₁x

e_i

Суть МНК состоит в том, чтобы минимизировать отклонения e_i в совокупности путем правильного подбора коэффициентов b₀, b₁.

Т.к. отклонение может иметь случайный знак (+ или -), то рассматривают квадраты отклонений. Минимизируют сумму квадратов отклонений

.

Сумма S является функцией двух неизвестных параметров b₀, b₁. Необходимое условие минимума функции S - равенство нулю производных по b₀и b₁.

Получили систему двух линейных уравнений от двух неизвестных. Такая система имеет единственное решение.

Выразив коэффициенты b₀ и b₁, и, сделав арифметические преобразования, получим выражения для определения этих коэффициентов:

<1 234 5 6 7 >

Дата добавления: 2016-01-20; просмотров: 1003;