Математическое определение регрессии

Строго регрессионную зависимость можно определить следующим образом.

Пусть Y, X₁,X₂,...,X_p — случайные величины с заданным совместным распределением вероятностей.

Если для каждого набора значений X₁ = x₁,X₂ = x₂,...,X_p = x_p определено условное математическое ожидание y(x₁,x₂,...,x_p) = E(Y | X₁ = x₁,X₂ = x₂,...,X_p = x_p) (уравнение линейной регрессии в общем виде),

то функция y(x₁,x₂,...,x_p) называется регрессией величины Y по величинам X₁,X₂,...,X_p, а ее график — линией регрессии Y по X₁,X₂,...,X_p, или уравнением регрессии.

Зависимость Y от X₁,X₂,...,X_p проявляется в изменении средних значений Y при изменении X₁,X₂,...,X_p. Хотя при каждом фиксированном наборе значений X₁ = x₁,X₂ = x₂,...,X_p = x_p величина Y остается случайной величиной с определенным рассеянием.

Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение Y при изменении X₁,X₂,...,X_p, используется средняя величина дисперсии Y при разных наборах значений X₁,X₂,...,X_p (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).

Метод наименьших квадратов (расчёт коэффициентов)

На практике линия регрессии чаще всего ищется в виде линейной функции Y = b₀ + b₁X₁ + b₂X₂ + ... + b_NX_N (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых Y от их оценок (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

(M — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда Y = y(x₁,x₂,...x_N).

<8 9 101112 13 14 >

Дата добавления: 2016-06-13; просмотров: 725;