Расчет коэффициентов в множественной линейной регрессии.
Представим данные наблюдений и соответствующие коэффициенты в матричной форме.
Y=(y1,y2,…yn)т B=(b0,b1,…bm)т e=(e1,e2…en)т
X= |
Решение системы уравнений в матричном виде, будет иметь следующий вид:
В = (XтX)-1XтY.
Здесь (XтX)-1— матрица, обратная к XтX.
Полученные общие соотношения справедливы для уравнений регрессии с произвольным количеством m объясняющих переменных.
Пример.
Имеются следующие данные (условные) о сменной добыче угля на одного рабочего Y(т), мощности пласта X1(м) и уровне механизации работ X2(%), характеризующие процесс добычи угля в 10 шахтах.
Таблица 1
i | xi1 | xi2 | yi | i | xi1 | xi2 | yi |
Предполагая, что между переменными Y, X1,X2 существует линейная корреляционная зависимость, найти ее уравнение регрессии.
Решение. Обозначим Y=(5,10,10,….8)Т,
Теперь XтX=
XтY=
Матрицу A-1=(X'X)-l определим по формуле A-1=(A*)т /|A|
Получим
,
Окончательно получаем
Уравнение множественной регрессии имеет вид: у=—3,54+0,854x1+0,367x2. Оно показывает, что при увеличении только мощности пласта Х1 (при неизменном Х2) на 1 м добыча угля на одного рабочего Y увеличивается в среднем на 0,854 т, а при увеличении только уровня механизации работ Х2 (при неизменной Х1) — в среднем на 0,367 т.
3. Дисперсии и стандартные ошибки коэффициентов.
Наиболее удобно формулы расчета данных характеристик приводить в матричной форме.
Как показано выше, эмпирические коэффициенты множественной линейной регрессии определяются по формуле:
В = (ХТ X)-1XTY.
Подставляя теоретические значения Y = Хb+e в данное соотношение, имеем:
В=(ХТ X)-1XT(Хb+e)=(ХТ X)-1XTХb+(ХТ X)-1XTХe=b+(ХТ X)-1XTХe.
имеем: В-b=(ХТ X)-1XTХe - вектор отклонений
Построим дисперсионно-ковариационную матрицу
D(ei)=K(b)=M((В-b)(В-b)т)=M((ХТ X)-1XTХe((ХТ X)-1XTХe)Т)=М((ХТ X)-1XTeeТX((ХТ X)-1)Т)
В силу того что Xij, не являются случайными величинами, имеем:
K(β)=σ2((XTX)-1)TÞD(ei)=σ2zjj
где zjj– диагональный элемент матрицы Z-1=(ХТ X)-1.
Поскольку истинное значение дисперсии s2 по выборке определить невозможно, оно заменяется соответствующей несмещенной оценкой
где n– число степеней свободы, m — количество объясняющих переменных модели (m-1=k – число коэффициентов βj) .
Следовательно, по выборке мы можем определить лишь выборочные дисперсии эмпирических коэффициентов регрессии:
Sbj2=S2zjj
S называется стандартной ошибкой регрессии. Sbj – называется стандартной ошибкой коэффициента регрессии.
Дата добавления: 2017-09-19; просмотров: 223;