Мультиколлинеарность данных
Множественной регрессией называют уравнение связи с несколькими независимыми переменными:
(3.1)
Переменная у называется зависимой, объясняемой или результативным признаком. – независимые, объясняющие переменные или факторные признаки (факторы).
Соответствующая регрессионная модель имеет вид
, (3.2)
где ε -ошибка модели, являющаяся случайной величиной.
Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и необходимо учитывать влияние нескольких факторов. Например, объем выпуска продукции определяется величиной основных и оборотных средств, численностью персонала, уровнем менеджмента и т. д., уровень спроса зависит не только от цены, но и от имеющихся у населения денежных средств.
Основная цель множественной регрессии – построить модель с несколькими факторами и определить при этом влияние каждого фактора в отдельности, а также их совместное воздействие на изучаемый показатель.
Постановка задачи множественной регрессии: по имеющимся данным n наблюдений (табл. 3.1) за совместным изменением p+1 параметра y и и (( ); i=1, 2, ...,n; j=1, 2, …, p) необходимо определить аналитическую зависимость , наилучшим образом описывающую данные наблюдений.
Таблица 3.1
Результаты наблюдений
… | |||||
… | |||||
… | |||||
… | … | … | … | … | … |
n | … |
Каждая строка таблицы содержит p +1 число и представляет собой результат одного наблюдения. Наблюдения различаются условиями их проведения. Вопрос о том, какую зависимость следует считать наилучшей, решается на основе какого-либо критерия. В качестве такого критерия обычно используется минимум суммы квадратов отклонений расчетных или модельных значений результативного показателя от наблюдаемых значений
Построение уравнения множественной регрессии предполагает решение двух задач:
1) спецификация модели;
2) оценка параметров выбранной модели.
В свою очередь, и спецификация модели включает в себя решение двух задач:
– отбор p факторов xj, подлежащих включению в модель;
– выбор вида аналитической зависимости .
Для измерения степени тесноты связи между изменениями величины результативного признака (у) и изменениями значений факторных признаков определяется коэффициент множественной (совокупной) корреляции (R). Для случая зависимости результативного признака от двух факторных признаков формула совокупного коэффициента корреляции имеет вид:
(3.3)
Если число факторов-признаков более двух, то совокупный
коэффициент корреляции определяется следующим образом:
(3.4)
где — матрица парных коэффициентов корреляции (см. табл. 3.1);
— соответствует матрице парных коэффициентов корреляции ( ) без верхней строки и первого столбца.
Величина называется коэффициентом детерминации, она показывает, в какой мере вариация результативного признака обусловлена влиянием признаков-факторов, включенных в уравнение множественной зависимости.
Величина совокупного коэффициента корреляции изменяется в пределах от 0 до 1 и численно не может быть меньше, чем любой из образующих его парных коэффициентов корреляции. Чем ближе он к единице, тем меньше роль неучтенных в модели факторов и тем более оснований считать, что параметры регрессионной модели отражают степень эффективности включенных в нее факторов.
Для оценки существенности (значимости) совокупного коэффициента корреляции используется критерий F-Фишера.
Для этого по формуле (7.43) определяется F-расчетное, которое сравнивается с табличным значением при заданном уровне значимости (например, ). Если , то с вероятностью 0,95 можно утверждать, что связь между результативным и факторными признаками существенна.
Дата добавления: 2016-03-22; просмотров: 645;