Введение в регрессионный анализ.
Первоначально термин «регрессия» был употреблён Ф. Гальтоном (1886) в теории наследственности в следующем специальном смысле. «Возвратом к среднему состоянию» (regression to mediocrity) было названо явление, состоящее в том, что дети тех родителей, рост которых превышает среднее значение на а единиц, имеют в среднем рост, превышающий среднее значение, меньше, чем на а единиц.
Регрессионная зависимость является частным случаем стохастической зависимости и подразумевает зависимость среднего значения величины Y от другой случайной величины Х (одномерной или многомерной).
Регрессионная зависимость Y от Х проявляется в изменении средних значений Y при изменении Х, хотя при каждом фиксированном значении Х=х величина Y остаётся случайной величиной с определённым распределением.
Регрессия случайной величины Y по Х – это условное математическое ожидание Y, вычисленное при условии, что случайная величина Х приняла значение, равное х:
y(x)=M(Y|X=x).
В математической статистике имеют дело с оценками соответствующих вероятностных характеристик, поэтому в качестве оценки условного математического ожидания принимают условное среднее. Если при каждом значении наблюдается значений величины y , то зависимость средних арифметических
от и является регрессией в статистическом понимании этого термина.
Если число наблюдений, соответствующее некоторым значения Х недостаточно велико, то такой метод может привести к ненадёжным результатам.
Уравнение y=y(x), в котором х играет роль «независимой» переменной, называют уравнением регрессии, а соответствующий график – линией или кривой регрессии.
Линия регрессии может быть приближенно восстановлена по достаточно обширной корреляционной таблице: за приближенное значение у(х) принимают среднее из тех наблюдённых значений Y , которым соответствует значение Х = х.
Для выяснения вопроса, насколько хорошо регрессия передаёт изменение Y при изменении Х, используется условная дисперсия Y при данном значении Х = х – дисперсия Y относительно линии регрессии (мера рассеяния относительно линии регрессии):
.
При точной функциональной зависимости величина Y при данном Х=х принимает лишь одно определённое значение, то есть рассеяние вокруг линии регрессии равно нулю. Таким образом, если при всех значения х, то можно с достоверностью утверждать, что Y и Х связаны строгой функциональной зависимостью. Если ни при каком значении х и y(x) не зависит от x, то говорят, что регрессия Y по Х отсутствует.
Наиболее простым является тот случай, когда регрессия Y по Х линейна:
y=a∙x+b
( числа a и b называют коэффициентами регрессии).
Коэффициенты линейной регрессии вычисляют по формулам:
, .
Здесь , , , , .
Если двумерное распределение Y и Х нормально, то линия регрессии Y по Х (так же как и Х по Y) является прямой с уравнением
.
В этом случае корреляционное отношение совпадает с коэффициентом корреляции и условная дисперсия не зависит от х (является постоянной величиной):
.
Следовательно, коэффициент корреляции полностью определяет степень концентрации распределения вблизи линии регрессии.
Если регрессия Y по Х отлична от линейной, то уравнение
.
является линейным приближением истинного уравнения регрессии.
Коэффициенты регрессии обычно неизвестны, и их оценивают по выборочным данным:
Линейная функция
определяет эмпирическую линию регрессии, которая служит статистической оценкой неизвестной истинной линии регрессии.
Рассеяние вокруг линии регрессии можно оценить, используя эмпирическую среднюю дисперсию относительно линии регрессии:
Этот метод, в предположении нормальной распределённости результатов наблюдений, даёт, в некотором смысле, оптимальные результаты и позволяет проводить экстраполяцию (прогнозирование) значений величины Y по имеющимся значениям величины Х.
Литература.
Теория вероятностей и математическая статистика [Электронный ресурс]: учебное пособие/ В.С. Мхитарян [и др.].— Электрон. текстовые данные.— М.: Московский финансово-промышленный университет «Синергия», 2013.— 336 c http://www.iprbookshop.ru/17047 «IPRbooks»
Дата добавления: 2018-11-25; просмотров: 637;