Этапы эконометрического моделирования
1. Постановочный. Формулируется цель исследования (анализ, прогноз, управленческое решение), определяются экономические переменные модели).
2. Априорный. Анализируется изучаемое явление, формируется и формализуется информация известная до начала исследования.
3. Параметризация.Определяется вид модели, выражается в математической форме взаимосвязь между её переменными, формулируются исходные предпосылки и ограничения модели.
4. Информационный. Собирается необходимая статистическая информация.
5. Идентификация модели. Проводится статистический анализ модели, оценивается точность, значимость её параметров и модели в целом.
6. Верификация модели. Оцениваем адекватность модели, т.е. соответствие реальному экономическому процессу.
Лекция №2
Модели парной регрессии
Построение уравнения парной регрессии
Уравнение адекватно реальному моделируемому явлению или процессу в случае соблюдения следующих требований:
- cовокупность исходных данных должна быть однородной и математически описываться непрерывными функциями;
- наличие достаточно большого объема исследуемой выборочной совокупности;
- возможность описания моделируемого явления одним или несколькими уравнениями причинно-следственных связей;
- причинно-следственные связи между явлениями и процессами, по возможности, следует описывать линейной (или приводимой к линейной) формой зависимости;
- отсутствие количественных ограничений на параметры модели
- количественное выражение факторных признаков;
- постоянство территориальной и временной структуры изучаемой совокупности.
Теоретическая обоснованность моделей взаимосвязи явлений обеспечивается соблюдением определенных условий:
- все признаки и их совместные распределения должны подчиняться нормальному закону распределения;
- дисперсия моделируемого признака должна всё время оставаться постоянной при изменении значений факторного признака;
- отдельные наблюдения должны быть независимы, т.е. результаты, полученные в iнаблюдении, не должны быть связаны с предыдущими и содержать информацию о последующих наблюдениях, а также влиять на них.
При линейной связи параметры ( и ) уравнения парной регрессии:
(2.1)
находятся с помощью метода наименьших квадратов. Суть метода заключается в минимизации суммы квадратов отклонений теоретических значений результативного признака ( ) от его фактических значений ( ):
(2.2)
Условие (2.2) выполняется при равенстве нулю частных производных по параметрам и :
(2.3)
Сократим каждое уравнение системы (2.3) на (-2), раскроем скобки и получим следующую систему нормальных уравнений:
(2.4)
Поделим каждое уравнение системы (2.4) на объём статистической совокупности (n), тогда упомянутую систему можно представить в более наглядном виде:
(2.5)
Из первого уравнения системы (1,5) следует, что:
(2.6) Подставив полученное выражение во второе уравнение, получим:
. (2.7) Коэффициент корреляции определяется по формуле:
(2.8) Учитывая (1,7) и (1,8) получим
(2.9)
или . (2.10)
Зная значения r, и можно вычислить по выражениям (2.10) и (2.6) параметры и линейного уравнения регрессии.
Параметр , нельзя использовать для непосредственной оценки влияния факторного признака на результативный признак из-за различия единиц измерения исследуемых показателей. Для этих целей вычисляют значение среднего коэффициента эластичности и бета-коэффициент:
(2.11)
(2.12)
Коэффициент эластичности показывает, на сколько процентов изменяется результативный признак у при изменении факторного признака x на один процент.
Бета-коэффициент показывает, на какую часть своего среднего квадратического отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину своего среднего квадратического отклонения.
Статистический анализ модели
Оценка параметров парной регрессии выполняется исходя из следующих предпосылок. Допустим, что в генеральной совокупности связь между x и y линейна. Наличие случайных отклонений, вызванных воздействием на переменную y множества других, неучтенных в уравнении факторов и ошибок измерения, приведет к тому, что связь наблюдаемых величин и приобретает вид:
Здесь - случайные ошибки (отклонения, возмущения). Если были бы известны точные значения отклонений , то можно было бы рассчитать значения параметров и . Так как они неизвестны, то по наблюдениям и можно получить только оценки параметров и , которые сами являются случайными величинами в связи с тем, что соответствуют случайной выборке. Пусть - оценка параметра , - оценка параметра , тогда оцененное уравнение регрессии будет иметь вид:
(2.13)
Для того чтобы оценки и обладали адекватностью ряд остатков
должен удовлетворять следующим требованиям:
- математическое ожидание равно нулю (критерий нулевого среднего);
- величина является случайной переменной (критерий серий);
- значения независимы между собой (критерий Дарбина-Уотсона);
- дисперсия постоянна: для всех i, j (тест Гольдфельда-Квандта);
- остатки распределены по нормальному закону (свойство используется для проверки статистической значимости и построения доверительных интервалов при прогнозировании).
Известно, что если данные условия выполняются, то оценки, сделанные с помощью метода наименьших квадратов, обладают следующими свойствами:
- оценки являются несмещенными, т.е. математическое ожидание оценки каждого параметра равно его истинному значению:
Это вытекает из того, что и свидетельствует об отсутствии систематической ошибки в определении положения линии регрессии;
- оценки состоятельны, т.к. дисперсии оценок параметров при возрастании числа наблюдений стремятся к нулю: ; т.е. надежность оценки при увеличении выборки растёт;
- оценки эффективны, т.е. они имеют наименьшую дисперсию по сравнению с любыми другими оценками данного параметра.
Если предположения 3 и 4 нарушены, т.е. дисперсия возмущений непостоянна или значения связаны друг с другом, то свойства несмещености и состоятельности сохраняется, но свойства эффективности – нет.
Отметим, что аппроксимировать уравнением парной регрессии у на х, имеет смысл только в том случае, если существует достаточно тесная статистическая зависимость между случайными величинами и линейный коэффициент корреляции является значимым, что и имеет место в рассматриваемом примере.
Оценка качества построенной модели
Таблица 1.1
Формально качество модели определяется ее адекватностью и точностью. Эти свойства исследуются на основе анализа ряда остатков, значения которых вычислены по выражению . Табл.1.1 содержит: - остатки для задачи, исходные данные которой приведены в табл. 5.2; - ранжированные значения ряда остатков; - остатки за вычетом медианы остатков; - стандартные остатки. Адекватность является более важной составляющей качества, но сначала рассмотрим характеристики точности и нормальности ряда остатков, так какнекоторые из них используются прирасчете различных критериев адекватности. |
Характеристики точности
Под точностью понимается величина случайных ошибок. Сравнительный анализ точности имеет смысл только для адекватных моделей: среди них лучшей признается модель с меньшими значениями характеристик точности, к которым относятся:
- максимальная ошибка соответствует максимальному отклонению расчетных значений от фактических;
- средняя абсолютная ошибка
(2.14)
показывает, насколько в среднем отклоняются фактические значения от модели;
- средняя относительная ошибка
;(2.15)
- остаточная дисперсия
; (2.16)
- средняя квадратическая ошибка
. (2.17)
Средняя квадратическая ошибка является наиболее часто используемой характеристикой точности (что объясняется ее связью с остаточной дисперсией, которая играет центральную роль в регрессионном анализе). Значение средней квадратической ошибки всегда несколько больше значения средней абсолютной ошибки, но они имеют схожий смысл – характеризуют среднюю удаленность расчетных значений модели от фактических исходных данных. Обычно точность модели признается удовлетворительной если выполняется условие:
. (2.18)
К характеристикам точности можно отнести также множественный коэффициент детерминации
, (2.19) характеризующий долю дисперсии зависимой переменной, объясненной с помощью регрессии, и множественный коэффициент корреляции (индекс корреляции):
. (2.20)
В случае парной линейной регрессии значение множественного коэффициента корреляции совпадает с линейным коэффициентом корреляции.
Проверка нормальности ряда остатков может быть выполнена приближенно по условиям (7.2). В связи с тем, что каждый из относительных показателей формы распределения ( ) меньше 1,5 эмпирическое распределение ряда остатков не противоречит нормальному.
Проверка адекватности модели
Проверка адекватности модели заключается в определении её значимости и наличии или отсутствии систематической ошибки.
Сначала проверяется значимость параметров уравнения. Если, например, параметр является незначимым, то необходимо с помощью метода наименьших квадратов получить соответствующее уравнение из которого определяется значение параметра .
Проверка значимости осуществляется на основе t – критерия Стьюдента, т.е. проверяется гипотеза о том, что параметр, измеряющий связь, равен нулю.
Средняя ошибка параметра равна:
, (2.21)
а для параметра :
. (2.22)
Расчетные значения t- критерия вычисляются по формуле:
(2.23) Параметр считается значимым, если . Значение определяется по табл. 6 Практикума. Входами в табл. являются уровень значимости и количество степеней свободы , где - количество факторов в уравнении регрессии. При и . Следовательно, в рассматриваемом примере параметры являются значимыми.
Параметр лежит в пределах ; ,
а параметр - ; .
Значимость уравнения регрессии в целом определяется с помощью F – критерия Фишера:
(2.24)
Расчетное значение F сопоставляется скритическим для числа степеней свободы при заданном уровне значимости (например, ),где . .
Если , то уравнение считается значимым.
Проверка наличия или отсутствия систематической ошибки
Проверка свойства нулевого среднего.
Рассчитывается среднее значение ряда остатков
. (2.25)
Если оно близко к нулю, то считается, что модель не содержит систематической ошибки и адекватна по критерию нулевого среднего, иначе – модель неадекватна по данному критерию. Если средняя ошибка не точно равна нулю, то для определения степени ее близости к нулю используется t – критерий Стьюдента. Расчётное значение критерия вычисляется по формуле
(2.26)
и сравнивается с критическим .Если выполняется неравенство , то модель неадекватна по данному критерию.
Проверка случайности ряда остатков.
Осуществляется по методу серий. Серией называется последовательность расположенных подряд значений ряда остатков, для которых разность (графа 4 табл. 7.4) имеет один и тот же знак, где - медиана ряда остатков, значение которой рассчитано по данным графы 3 упомянутой таблицы.
Если модель хорошо отражает исследуемую зависимость, то она часто пересекает линию графика исходных данных и тогда серий много, а их длина невелика. Иначе – серий мало и некоторые из них включают большое число членов.
В качестве серий рассматриваются расположенные подряд ошибки с одинаковыми знаками. Далее подсчитывается число серий и длина максимальной из них . Полученные значения сравниваются с критическими
(2.27) (2.28) (квадратные скобки означают округление вниз до ближайшего целого).
Если выполняется система неравенств:
, (2.29) то модель признается адекватной по критерию случайности, если хотя бы одно из неравенств нарушено, то модель признается неадекватной по данному критерию.
Проверка независимости последовательных остатков.
Является важнейшим критерием адекватности модели и осуществляется с помощью коэффициента Дарбина-Уотсона:
. (2.30) Для рядов с тесной взаимосвязью между последовательными значениями остатков значение близко к нулю, что свидетельствует о том, что закономерная составляющая не полностью отражена в модели и частично закономерность присуща ряду остатков, т.е. модель неадекватна исходному процессу.
Если последовательные остатки независимы, то близко к 2. Это свидетельствует о хорошем качестве модели и чистой фильтрации закономерной составляющей.
При отрицательной автокорреляции остатков (строго периодичном чередовании их знаков) близко к 4.
Для проверки существенности положительной автокорреляции остатков значение сравнивается с и из табл. 2 Приложения к лекции:
если , то гипотеза о независимости остатков отвергается и модель признается неадекватной по критерию независимости остатков;
если , то гипотеза о независимости остатков принимается и модель признается адекватной по данному критерию(в рассматриваемом примере );
если , то значение критерия лежит в области неопределенности.
Если , то возникает предположение об отрицательной автокорреляции остатков, и тогда с критическими значениями сравниваются не , а и делаются аналогичные выводы.
Проверка постоянства дисперсии остатков.
Если на графике остатков они укладываются в симметричную относительно нулевой линии полосу шириной (модуль стандартных остатков меньше 3) и не имеют как положительной так и отрицательной тенденций, то дисперсии ошибок наблюдений можно считать постоянными.
Значения стандартных остатков вычисляются по формуле
, где и приведены в графе 5 табл.1.1.
Рис. 2.1. График стандартных остатков
Кроме визуальной оценки постоянства дисперсии существуют и более точные методы, например, тест Гольдфельда-Квандта. Суть теста заключается в следующем. Все n наблюдений упорядочиваются по возрастанию значений независимой переменной (x) и производится оценка параметров регрессий для первых и последних наблюдений с помощью метода наименьших квадратов. Для наибольшей мощности теста рекомендуется выбирать значение порядка n/3. Далее вычисляется расчётное значение статистики Фишера
,(2.31)
где - суммы квадратов остатков для первых и последних наблюдений соответственно. Далее задаётся уровень значимости и определяется с помощъю статистических таблиц. .
Если то делается вывод о постоянстве дисперсии.
По совокупности четырех критериев делается вывод о принципиальной возможности использования модели: если модель адекватна по критериям постоянства дисперсий и нулевого среднего и хотя бы по одному из двух других критериев, то она может быть принята для использования, хотя и не признается полностью адекватной.
Построение доверительных интервалов
Конечной целью моделирования является оценка или прогнозирование показателя Yв зависимости от значений X.
Прогноз подразделяется на точечный и интервальный и обычно осуществляется не более чем на одну треть размаха:
,
где - точка прогноза.
В точечном прогнозе показателя Yдля определяется лишь одно число, которое представляет условное среднее и (при выполнении предпосылок регрессионного анализа) наиболее вероятное значение с точки зрения закономерности, отраженной в модели. В таком прогнозе не учитываются отклонения от закономерностей в результате воздействия случайных и неучтенных факторов.
В интервальном прогнозе отклонения от закономерностей в результате случайных воздействий определяются границами доверительных интервалов.
Доверительным интервалом называется такой интервал, которому с заданной степенью вероятности (называемой доверительной) принадлежат истинные значения показателя при условии, что закономерности, отраженные в модели, не противоречат развитию как на участке наблюдения, так и на участке оценки (или в периоде упреждения прогноза).
Случайные отклонения от модели проявляются в виде ошибок. Поэтому при определении границ, доверительных интервалов необходимо определить из чего складываются возможные ошибки моделирования, оценки и прогнозирования. При условии, что модель адекватна, и возможные ошибки носят случайный характер, следует различать два основных источника ошибок:
ошибки аппроксимации (рассеяние наблюдений относительно модели);
ошибки оценок параметров модели.
Наличие ошибок первого типа очевидно даже визуально. Величина ошибок аппроксимации характеризуется остаточной дисперсией или средней квадратической ошибкой . Распределение этих ошибок для адекватных моделей – нормально (нормальность ошибок – одно из условий адекватности).
Ошибки оценок параметров модели обусловлены тем, что их параметры, фиксированные в модели как однозначные, в действительности являются случайными величинами, так как они оцениваются на основе фактических данных, в которых присутствует как закономерная, так и случайная составляющие. Средние значения этих оценок при выполнении предпосылок регрессионного анализа соответствует истинным значениям параметров, а их дисперсии зависят от остаточной дисперсии, числа наблюдений и вида модели.
Общее среднее квадратическое отклонение истинных значений от расчетных может быть представлено как:
(2.32)
а в точке прогноза:
(2.33)
Исходя из предпосылки нормального распределения остатков границы доверительных интервалов определяются по формулам:
(2.34)
Анализ выражений (2.32, 2.33) позволяет для моделей парной регрессии сделать вывод, что доверительные интервалы тем шире, чем:
- больше остаточная дисперсия (менее точна модель);
- значение больше удалено от среднего значения (см. рис. 2.32);
- сложнее форма модели;
- больше заданная доверительная вероятность.
Обобщая полученные результаты, можно сделать вывод, что построенная модель обладает хорошим качеством, т.е. она достаточно точна и адекватна исследуемому процессу по всем перечисленным ранее критериям. Учитывая еще и нормальность ряда остатков можно осуществлять точечный и интервальный прогнозы. В связи с этим табл. 2.2 приведены данные для построения доверительных интервалов.
Массив дополнен двумя значениями: и , которые выделены жирным шрифтом. Значения: - ширина доверительного интервала; - нижняя граница доверительного интервала; - верхняя граница доверительного интервала вычислены по формулам (2.34) с доверительной вероятностью 0,975 и соответствующим ей коэффициентом доверия Стьюдента 2,315. Выбор распределения Стьюдента обусловлен достаточно большим значением относительного показателя асимметрии остатков.
График доверительных интервалов и график их ширины приведены на рис. 2.1 и 2.2.
Рис. 2.2.График доверительных интервалов
Рис. 2.3. График ширины доверительных интервалов
С учетом нормального распределения остатков при среднем значении ВТО фирм равном 1067,43 млн. долл. с вероятностью 0,975 прогнозируемые таможенные платежи в бюджет составят от 27,61 до 31,37 млн. долл., при этом условное среднее (наиболее вероятный объём поступлений) ожидается 29,49 млн. долл.
Лекция №3
Дата добавления: 2016-03-22; просмотров: 1340;