Корреляционный анализ

Основной задачей корреляционного анализа является выявление тесноты связи между случайными величинами путем оценки коэффициентов корреляции.

Рассмотрим простейшее из уравнений регрессии - двумерную модель (8.2.3) . Полную информацию о корреляционной зависимости между переменными и , заданными с помощью выборочных наблюдений , , в этой модели, дают средние значения и , дисперсии и (см. (2.5.9)) и коэффициент корреляции (см. (2.5.13))

где и - среднеквадратические отклонения, а - ковариация между и (см. (2.5.12)). Выборочный коэффициент корреляции в обозначениях и можно записать в виде

(8.4.1)

 

 

Рис. 8.3 Иллюстрация отклонений и

 

Для обоснования измерения тесноты связи между случайными величинами и при помощи формулы (8.4.1) разобьем поле рассеяния точек , на четыре части с помощью перпендикуляров к осям координат, проходящих через точку (см. Рис. 8.3). Тогда для любой точки будут определены отклонения и . При помощи этих переменных можно характеризовать полученные на Рис. 8.3 квадранты: квадранты I и III характеризуются положительным знаком произведения , а квадранты II и IV - отрицательным знаком . Переводя эти рассуждения на случайные величины и , можно сделать вывод, что

  • если зависимость между и положительная, то большая часть точек лежит в I и III квадрантах и сумма становится положительной;
  • если зависимость между и отрицательная, то большая часть точек лежит в II и IV квадрантах и сумма становится отрицательной;
  • если нет связи между и , то точки рассеяны по всем четырем квадрантам и сумма близка к нулю.

Сумма в качестве меры тесноты связи между и имеет недостаток: ее численное значение может быть увеличено за счет случайной, достаточно удаленной от точки или же в результате выбора единиц измерения переменных и . Эти недостатки можно исправить, если усреднить рассматриваемую сумму в виде (8.4.1), т.е. мерой оценки связи взять коэффициент корреляции , который является безразмерной величиной и при достаточно большом объеме выборки обладает следующими удобными свойствами:

  1. для любых случайных величин и
  2. если то корреляционная связь между и отсутствует;
  3. если , то корреляционная связь переходит в функциональную зависимость между и .

Введём в рассмотрение величины:

и представим выражение (8.4.1) в виде

. (8.4.2)

Пусть и - параметры регрессии (8.2.4), полученные методом наименьших квадратов. Объединяя формулы (8.2.8) и (8.4.2), получим:

. (8.4.3)

Возведя в квадрат обе части уравнения отклонения точки от линии наименьших квадратов (8.2.7) и суммируя по , получим:

(8.4.4)

В силу (8.2.7) имеем:

Используя (8.2.8), запишем

Поэтому из (8.4.4) получаем

(8.4.5)

Как следует из (8.4.5), общая вариация значений случайной величины около их выборочного среднего может быть разложена на две составляющие. Первая составляющая показывает вариацию значений около их среднего , равного среднему . Действительно, так как точка лежит на линии (см. (8.2.6)), найденной методом наименьших квадратов, то

Эту составляющую общей вариации обычно связывают с линейным воздействием на изменений объясняющей переменной . Т.е. это часть суммы квадратов отклонений, которая обусловлена найденной линейной зависимостью .

Предположив общую вариацию отличной от нуля и принимая во внимание выражения (8.2.7) и (8.4.3), вычислим отношение:

(8.4.6)

Следовательно, отношение части общей вариации , обусловленной линейной зависимостью от , к общей вариации равно квадрату коэффициента корреляции. Другими словами, это есть доля дисперсии , объясняемая линейной зависимостью от . Ее называют коэффициентом детерминации. Например, означает, что линейная регрессия на объясняет 0,25% дисперсии .

Из (8.4.5) и (8.4.6) получаем еще одно представление для коэффициента детерминации:

(8.4.7)

Отсюда следует, что значение не может превзойти единицы и что его максимальное значение будет достигнуто только при

Последнее возможно, когда каждое отклонение равно нулю и поэтому все точки в точности лежат на прямой линии (функциональная зависимость

 

Рис. 8.4 Поле рассеяния и линия регрессии

 

между и ). Минимальное значение , равное нулю, достигается при Это имеет место, когда первая составляющая в (8.4.5) равна нулю.

Выражение (8.4.7) подтверждает ранее приведенные свойства коэффициента корреляции. Действительно, в силу (8.4.7) коэффициент может изменяться в пределах от -1 до 1, а его знак определяется знаком суммы (Рис. 8.3 ).

Вторая составляющая в (8.4.5) является той частью общей вариации значений переменной , которая не имеет отношения к линейной зависимости между и , найденной методом наименьших квадратов. Она измеряет ту часть колебания , которая возникает из-за влияния на неучтенных факторов, не связанных с .

Пример 8.4. Требуется оценить зависимость времени перевозок товара от расстояния между пунктом хранения и различными пунктами доставки внутри города. Данные наблюдения приведены в таблице:

 

Расстояние (в км) 3,5 2,4 4,9 4,2 3,0 1,3 1,0 3,0 1,5 4,1
Время (в мин)

 

Обозначим: - время, - расстояние и нарисуем поле рассеяния (Рис. 8.4). Расположение точек говорит о возможной линейной связи и . Поэтому, используя формулы (8.2.8) и (8.2.9), находим:

Тогда линейная модель имеет вид:

(8.4.8)

Коэффициент корреляции, рассчитанный по формуле (8.4.1), имеет вид

Так как это значение очень близко к единице, то линейная связь между расстоянием и временем доставки очень тесна. Этот вывод подтверждается характером разброса точек на Рис. 8.4. Здесь коэффициент детерминации (8.4.7) показывает долю общей вариации времени перевозок, которая зависит от расстояния:

Таким образом, выборочная модель (8.4.8) объясняет 91,8% вариации времени доставки. Не объясняется 8,2% вариации времени доставки. Эта часть вариации обусловлена не учтенными в модели, но влияющими на время поездки факторами (пробки на дорогах, время суток, погода, вид транспорта и пр.).

 








Дата добавления: 2019-07-26; просмотров: 121;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.016 сек.