Метод наименьших квадратов

Метод наименьших квадратов (МНК) — метод, применяемый в теории ошибок для отыскания одного или нескольких неизвестных по результатам измерений, содержащим случайные ошибки. МНК используется также для приближенного представления заданной функции другими (более простыми) функциями и часто оказывается полезным для обработки наблюдений.

В простейшем случае, когда нет систематических ошибок, а есть случайные оценки неизвестных величин, полученные с помощью МНК, то они являются линейными функциями от наблюдаемых значений — статистические оценки.

Если статистические оценки наблюдений независимы и подчиняются нормальному распределению, то МНК дает оценки неизвестных с наименьшей средней квадратичной ошибкой. В этом смысле МНК является самым лучшим среди других способов, позволяющих находить линейные несмещенные оценки.

Если мы рассматриваем слабо формализованные системы, которые трудно поддаются однозначным и точным описаниям, связь между величинами X и Y изначально корреляционная. Это связано, в частности, с тем, что Y зависит не только от X, но и от других параметров, причем такая связь часто носит случайный характер.

В этом случае, имея экспериментальные точки, задача состоит в том, чтобы приближённо свести корреляционную связь к функциональной с помощью подбора такой функции, которая максимально возможным способом близка экспериментальным точкам. Такая функция называется функцией регрессии.

Обычно вид самой функции угадывается, но она зависит от некоторых параметров. Задача статистического и корреляционного анализа состоит в нахождении этих параметров. Для этого и используется метод наименьших квадратов.

Рассмотрим случайную двумерную величину (X, Y), где — зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением величины в виде линейной функции величины X:

где — параметры, подлежащие определению. Это можно сделать различными способами: наиболее употребительный из них — МНК. Функцию g(x) называют среднеквадратической регрессией Y на X.

где F — суммарное квадратичное отклонение.

Подберем a и b так, чтобы сумма квадратов отклонений была минимальной. Для того, чтобы найти коэффициенты a и b, при которых F достигает минимального значения, приравняем частные производные к нулю:

Находим a и b. Выполнив элементарные преобразования, получим систему двух линейных уравнений относительно a и b:

где — объём выборки.

В нашем случае A = 3277; B =495; C =7188; D = 1117;N = 100.

Найдём a и b из этой системы линейных уравнений. Получим стационарную точку для где 2,98; 3,26.

Следовательно, уравнение примет вид:

y=2,98x+3,26.

Рис. 10 Линейная регрессия y=f(x)

Построим график линейной регрессии. Для удобства наблюдения график регрессии будет на фоне диаграммы рассеивания.

Теперь построим регрессию

Аналогично

где n — объём выборки.

Теперь же A = 120716,9; B =3063,31; C =37157,64; D = 919,47; N = 100.

Найдём c и d из этой системы линейных уравнений. Получим стационарную точку для где ; .

Следовательно, уравнение примет вид:

Рис. 11 Линейная регрессия x=f(y)

Теперь для наглядности изобразим обе линии линейной регрессии на диаграмме рассеивания.

Рис. 12 Линейные регрессии y=f(x) и x=f(y)

Видно, что они практически совпадают (они должны пересекаться в районе математических ожиданий признаков и ). Зелёная линия показывает регрессию , а красная — .

<27 28 293031 32 33 >

Дата добавления: 2015-09-11; просмотров: 869;