Линейная регрессия
Рассмотрим двумерную случайную величину (X, Y), где X и Y – зависимые случайные величины.
Представим приближенно одну случайную величину как функцию другой. Точное соответствие невозможно. Будем считать, что эта функция линейная.
Для определения этой функции остается только найти постоянные величины a и b.
Определение. Функция g(X) называется наилучшим приближением случайной величины Y в смысле метода наименьших квадратов, если математическое ожидание
принимает наименьшее возможное значение. Также функция g(x) называется среднеквадратической регрессиейY на X.
Теорема. Линейная средняя квадратическая регрессия Y на Х вычисляется по формуле:
в этой формуле mx=M(X), my=M(Y),
коэффициент корреляции величин Х и Y.
Величина называется коэффициентом регрессииY на Х.
Прямая, уравнение которой , называется прямой сренеквадратической регрессииY на Х.
Величина называется остаточной дисперсиейслучайной величины Y относительно случайной величины Х. Эта величина характеризует величину ошибки, образующейся при замене случайной величины Y линейной функцией g(X)=aХ + b.
Видно, что если r=±1, то остаточная дисперсия равна нулю, и, следовательно, ошибка равна нулю и случайная величина Y точно представляется линейной функцией от случайной величины Х.
Прямая среднеквадратичной регрессии Х на Y определяется аналогично по формуле:
Прямые среднеквадратичной регрессии пересекаются в точке (тх, ту), которую называют центром совместного распределенияслучайных величин Х и Y.
Дата добавления: 2015-10-13; просмотров: 975;