Методы регрессионного и корреляционного анализа.

Рис. 1. Корреляционное поле.
При изучении зависимости от одного переменного параметра полезно для определения вида уравнения регрессии построить эмпирическую линию регрессии. Для этого весь диапазон изменения х на поле корреляции разбивается на равные интервалы Δх. Все точки, попавшие в данный интервал Δхj, относят к его середине xj. Для этого подсчитывают частные средние y, для каждого интервала:

Здесь nj—число точек в интервале Δхj.

где k—число интервалов разбиения; N—объем выборки.
Затем последовательно соединяют точки (хj, уj) отрезками прямой. Полученная ломаная линия называется эмпирической линией регрессии у по х. По виду эмпирической линии регрессии можно подобрать уравнение регрессии
.
Задача определения параметров уравнения регрессии сводится практически к определению минимума функции многих переменных. Если
, есть функция дифференцируемая и требуется b0, b1, b2,… выбрать так, чтобы

необходимым условием минимума Ф(b0, b1, b2,….) является выполнение равенств 
или

После преобразований получим:

Система, уравнений содержит столько же уравнений, сколько неизвестных коэффициентов b0, b1, b2,…. входит в уравнение регрессии и называется в математической статистике системой нормальных уравнений.
Величина Ф ≥ 0 при любых b0, b1, b2,….; следовательно, у нее обязательно должен существовать хотя бы один минимум. Поэтому, если система нормальных уравнений имеет единственное решение, то оно и является минимумом для величины Ф. Решать систему в общем виде нельзя. Для этого надо задаться конкретным видом функции f.
Для оценки силы линейной связи вычисляется выборочный коэффициент корреляции r*:

где Sx, Sy—выборочные среднеквадратичные отклонения.
После того как уравнение регрессии найдено, необходимо провести статистический анализ результатов. Этот анализ состоит в следующем: проверяется значимость всех коэффициентов регрессии в сравнении с ошибкой воспроизводимости и устанавливается адекватность уравнения. Такое исследование носит название регрессионного анализа.
Оценка тесноты нелинейной связи. Если считать, что уравнение регрессии найдено с достаточной точностью, то остаточная дисперсия обусловлена только наличием дисперсии воспроизводимости, т. е.

Чем меньше доля Sост2 в общей дисперсии S2y тем сильнее связь между у и х, ибо тем меньше доля случайности в этой связи. Поэтому силу связи можно характеризовать величиной

Связь тем сильнее, чем меньше ξ. Величина

называется корреляционным отношением. Чем больше θ, тем сильнее связь

Если θ = 1, существует функциональная зависимость между параметрами. При θ = 0, однако, величины у и х нельзя считать независимыми, так как связь между ними, не сказываясь на дисперсиях, может проявить себя в моментах более высокого порядка. Только в случае нормального распределения равенство нулю корреляционного отношения однозначно свидетельствует об отсутствии связи между случайными величинами. Корреляционное отношение, как и коэффициент корреляции в линейной регрессии, характеризует тесноту связи между случайными величинами. Вообще анализ силы связи по θ называют корреляционным анализом.
В случае линейной регрессии корреляционное отношение равно коэффициенту корреляции:

Дата добавления: 2015-03-03; просмотров: 1151;
