Математическое определение регрессии
Строго регрессионную зависимость можно определить следующим образом.
Пусть Y, X1,X2,...,Xp — случайные величины с заданным совместным распределением вероятностей.
Если для каждого набора значений X1 = x1,X2 = x2,...,Xp = xp определено условное математическое ожидание y(x1,x2,...,xp) = E(Y | X1 = x1,X2 = x2,...,Xp = xp) (уравнение линейной регрессии в общем виде),
то функция y(x1,x2,...,xp) называется регрессией величины Y по величинам X1,X2,...,Xp, а ее график — линией регрессии Y по X1,X2,...,Xp, или уравнением регрессии.
Зависимость Y от X1,X2,...,Xp проявляется в изменении средних значений Y при изменении X1,X2,...,Xp. Хотя при каждом фиксированном наборе значений X1 = x1,X2 = x2,...,Xp = xp величина Y остается случайной величиной с определенным рассеянием.
Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение Y при изменении X1,X2,...,Xp, используется средняя величина дисперсии Y при разных наборах значений X1,X2,...,Xp (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).
Метод наименьших квадратов (расчёт коэффициентов)
На практике линия регрессии чаще всего ищется в виде линейной функции Y = b0 + b1X1 + b2X2 + ... + bNXN (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых Y от их оценок (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):
(M — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда Y = y(x1,x2,...xN).
Дата добавления: 2016-06-13; просмотров: 718;