Явлений на основе факторных регрессионных моделей
После построения регрессионной модели, оценки существенности ее параметров и проверки адекватности, модель используется для предсказания значений зависимой переменной при определенных значениях независимых переменных .
Отметим, что действительные значения зависимой переменной не будут совпадать с расчетными (прогнозными), так как регрессия описывает взаимосвязь лишь в среднем. Надежность получаемых по уравнению регрессии прогностических оценок, определяется отклонением эмпирических данных от расчетных по уравнению регрессии. В качестве меры отклонения используется дисперсия. Оценка дисперсии отклонений от регрессии определяется по формуле
Важное значение, при нахождении прогноза, имеет определение доверительных интервалов для значений , т.е. границ, в пределах которых с заданной доверительной вероятностью будет находиться значение . Вследствие того, что оценивание параметров осуществляется по выборочным данным, оценки параметров регрессии содержат некоторую погрешность.
Построим вначале доверительный интервал для парной регрессии. Дисперсию переменной определим как сумму дисперсий слагаемых уравнения . Тогда
Вычислив дисперсию , определим доверительный интервал для расчетного значения :
где - квантиль распределения Стьюдента для уровня значимости и степеней свободы.
Построенные таким образом доверительные интервалы определяют местоположение линии регрессии, т.е. средних значений , но не отдельных возможных значений переменной Y, которые отклоняются от средней.
Если же мы хотим определить доверительные интервалы для отдельных значений зависимой переменной, то при определении дисперсии необходимо учитывать еще рассеяние вокруг линии регрессии, т.е. нужно включить величину в суммарную дисперсию:
.
Тогда доверительные интервалы для прогнозов индивидуальных значений Y будут равны
.
В параграфе 1.10 было построено уравнение регрессии . Определим среднее значение выпуска валовой продукции на одного среднегодового работника сельского хозяйства при фондовооруженности, равной 20,541. Получим .
Для построения доверительного интервала прогноза вычислим дисперсию:
Таким образом, доверительный интервал прогнозируемого выпуска валовой продукции для фондовооруженности, равной 20,541, будет иметь вид или (10 036,802; 17 329,198).
Пусть прогнозируемое значение Y определяется по уравнению регрессии с оцененными параметрами
.
Так как - несмещенные оценки некоторых неизвестных параметров соответствующей взаимосвязи, то - одно из возможных значений прогнозируемой величины при заданных значениях X. Поскольку - случайная величина, то и оценка также случайная и имеет дисперсию. Определим ее значение:
.
Использовав теорему о дисперсии суммы зависимых величин (см. [2, § 4.3]), получим
или в матричной записи:
где - вектор заданных значений независимых переменных. Так как , то .
Поскольку значение нам неизвестно, то, подставив ее оценку , получим
.
Таким образом, “истинное” среднее значение Y лежит в пределах
.
Доверительный интервал для при более точно можно трактовать следующим образом: в 95 % случаев оценивания параметров регрессии одного уравнения (по выборкам с тем же числом данных) доверительные интервалы будут содержать истинные средние значения Y, для заданных . Под прогностическим значением Y можно понимать его математическое ожидание, т.е. XB. Однако более естественно в прогностическое значение Y включить отклонение, т.е. рассматривать XB + U. В этом случае к дисперсии Y необходимо добавить и дисперсию U, т.е. Таким образом, получим
.
Соответственно доверительные интервалы для индивидуальной прогностической оценки Y равны
.
Пример 3.1. Валовая продукция на одного среднегодового работника сельского хозяйства Y (ден. ед.) по 15 колхозам зависит от двух переменных и , где - энерговооруженность (л.с.); - фондовооруженность одного работника, занятого в сельскохозяйственном производстве (тыс. ден. ед./чел.). Взаимосвязь характеризуется данными, указанными в табл. 3.1.
Предположим, что между рассматриваемыми величинами теоретически существует линейная зависимость:
.
Для оценки параметров воспользуемся методом наименьших квадратов, применив который, будем иметь соответствующую систему нормальных уравнений (2.5), решив которую, получим
.
Таким образом, .
Т а б л и ц а 3.1
№ п/п | Y | ||
10 532 11 079 8 698 7 032 12 805 8 854 10 702 9 089 9 332 11 982 13 037 9 643 8 358 11 208 11 471 | 32,339 28,310 29,600 26,095 33,332 28,136 31,287 29,773 26,876 30,187 36,886 33,707 31,712 28,109 33,722 | 14,482 14,397 12,280 10,397 14,888 12,012 12,819 12,626 13,444 15,043 17,626 14,470 13,096 14,449 16,526 | |
208,556 | 153 822 | 460,061 |
Естественно, что оценки параметров найденного уравнения регрессии будут отклоняться от истинных значений. Дисперсия уравнения регрессии зависит от дисперсии оценки каждого параметра уравнения. Для того чтобы измерить дисперсии оценок параметров, необходимо найти дисперсию ошибок:
,
а также матрицу :
,
Обратную матрицу найдем как произведение обратного значения определителя на матрицу алгебраических дополнений:
.
Теперь определим значения дисперсий оценок :
(здесь - диагональный элемент матрицы );
;
;
Средние квадратичные ошибки коэффициентов частной регрессии в этом случае будут равны:
Оценим значимость коэффициентов частной регрессии. Для проверки гипотезы , воспользуемся статистикой
.
Подставив соответствующие значения, получим значения статистики для :
По таблице t-распределения, для уровня значимости и числа степеней свободы при двусторонней критической области находим критическое значение . Поскольку для всех значений , то коэффициенты регрессии статистически надежны.
Далее определим :
Найдем теперь 95 %-й доверительный интервал. Для уровня значимости и числа степеней свободы квантиль . Тогда доверительный интервал имеет вид
,
или
.
Проверим адекватность регрессионной модели. Для этого вычислим:
· средний квадрат ошибок регрессионной модели:
;
· коэффициент аппроксимации:
MAPE .
Данная модель имеет хорошую точность, т.к. .
· F-критерий Фишера:
Матрица состоит из остатков уравнения регрессии . А произведение . Таким образом, знаменатель равен
Матрица состоит из значений , вычисленных по уравнению регрессии:
,
откуда
и
По таблице F-распределения при заданном уровне значимости и числе и степенях свободы находим . Так как , то адекватность в целом подтверждается.
Таким образом, все критерии подтверждают адекватность построенной регрессионной модели эмпирическим данным.
Дата добавления: 2015-08-20; просмотров: 796;