Влияние погрешности регистрации статистических данных на

точность регрессионной модели[4]

Независимые переменные измеряются с ошибками:

Xi = X0i + ei ,

где eiошибка измерения; X0i – истинное значение контролируемой переменной.

 

Ошибка имеет нормальный закон распределения:

ei(0, ξi2).

 

Рассчитанная по данным наблюдениям модель оценивается остаточной дисперсией:

где - дисперсия выходной переменной, не зависит от ошибки измерения xi.

- коэффициент детерминации подвержен влиянию ошибок измерений xi:

 

R2 = R2y,x1,x2,..xk .

 

 

Составим матрицу (ХтХ)-1 коэффициентов ковариации:

 

y x1 x2 …. xk

y dyy dy1 dy2……dyk

x1 d11 d12……d1k

D= x2 d22 …. d2k

.

.

xk dkk

 

где dyyy2; dyj = Cov(y, xj) ; dij = Cov(xi ,xj).

 

 

Тогда множественный коэффициент корреляции равен:

 

где |D| - определитель матрицы D;

Dyy - алгебраическое дополнение элемента dyy матрицы D.

 

Для упрощения расчетов коэффициентов линеаризованного регрессионного уравнения выполним центрирование всех переменных. Тогда уравнение примет вид:

 

(y ycp) = b1(x1x1cp) + …..+ bk(xk – xkcp) + e.

 

Матрица для записи коэффициентов нормальных уравнений принимает вид:

 

 

Корреляционная матрица для центрированных значений переменных равна:

x10 x20 …… xk0

x10 d11 d12…….d1k

= x20 d22 …… d2k (1)

.

.

xk0 dkk

 

 

Дополнив первую строку и столбец (1) коэффициентами ковариации центрированных значений зависимой переменной с факторными переменными, получим матрицу D0:

 

y0 x01 x02 x0k

y0 d0yy d0y1 … .d0yk

x10 d01y d011 ……d01k

D0 = x20 d02y d022 d02k (2)

.

.

xk0 d0ky d0kk

 

где d0yy= σy02; d0yj = Cov (y0, x0j); d0ij = Cov(x0i ,x0j).

 

Коэффициенты уравнения регрессии рассчитываются через определитель матрицы D0 (2) по формуле:

 

где - алгебраическое дополнение элемента d0yj матрицы D0;

- алгебраическое дополнение элемента d0yy матрицы D0.

Рассмотрим влияние ошибок измерения факторных переменных на оценки bi :

 

dij = Cov{(x0i + ei ), (x0j + ej )}= Cov{(x0i ), (x0j )} = d0ij ;

dii = Cov{(x0i + ei ), (x0i + ej )}= Cov{(x0i ), (x0i )} + 2Cov{x0i, ei} +

+ Cov{ei ei} = d0ii + ξ2i ;

dyi =Cov{(y0 + ey) , (x0i + ei )} = d0yi .

Под влиянием ошибок измерений в матрице D0(2) изменяются значения диагональных элементов (возрастают). Недиагональные элементы не изменяются. Рассмотрим, как это скажется на коэффициенте детерминации R2:

Для выявления зависимости коэффициента детерминации от погрешностей измерения x0i рассмотрим частные производные, используя теорему о дифференцировании определителей:

 

где - регрессионные коэффициенты при стандартизации факторных переменных

 

Знак минус производной указывает, что погрешность измерений факторных переменных приводит к уменьшению коэффициента детерминации.

Заменяя дифференциал на приращения, получаем:

 

Вывод:

1. Чем больше размах колебаний факторных переменных, тем меньше сказывается влияние погрешности регистрации e2i на точность регрессионной модели.

2. Погрешность измерения зависимой переменной оказывает влияние на точность модели

 

Практические рекомендации: чем больше размах колебаний факторных переменных, тем меньше сказываются погрешности измерений на точность регрессионной модели.

На основе теоремы о полном приращении функции многих переменных можно записать:

 

Запишем формулу остаточной дисперсии уравнения регрессии:

 

 

Погрешности измерений факторных переменных приводят к увеличению остаточной дисперсии уравнения регрессии. Ошибки измерений снижают эффективность м.н.к. оценок:

 

Оценим влияние погрешностей регистрации факторных переменных на коэффициенты регрессии [4]:

 

- множественный коэффициент корреляции факторной переменной xi с остальными факторными переменными.

 

Ошибки измерения факторных переменных приводят к уменьшению значений коэффициентов регрессии. Чем теснее связь между переменными

, тем влияние сильнее.

Ошибки измерения зависимой переменной у не влияют на значения коэффициентов регрессии:

 

 

Оценим чувствительность регрессионного коэффициента bi к ошибкам измерений других факторных переменных:

 

Полное приращение (+/-) ∆bi за счет ошибок в остальных факторных переменных равно:

 

При некоррелированности факторных переменных =0, получаем

=0. В этом случае ошибки регрессионных коэффициентов ∆bi будут вызываться только ошибками измерений самих переменных xi.:

 

 

Вычисленные коэффициенты регрессии получаются асимптотически смещенными. С увеличением числа опытов дисперсия оценок коэффициентов регрессии уменьшается:

 

 

 

При этом оценки не сходятся к истинным значениям, т.е. оценки не состоятельные.

Степень искажения оценок коэффициентов регрессии можно судить по следу матрицы А, составленной по центрированным значениям факторных переменных (без ошибок):

где - матрица ошибок факторных переменных.

 

След матрицы А равен:

,

где - относительная точность измерения факторных переменных xi .

 

Смещение оценок и увеличение их дисперсии за счет ошибок измерения факторных переменных малы при выполнении условий:

 

 

Контрольные вопросы

1. В чем особенность планирования промышленного эксперимента?

2. Как определяется продолжительность эксперимента и дискретность съема данных с объекта?

3. Как сказывается погрешность регистрации данных на коэффициенте детерминации модели регрессии?

4. Как влияют ошибки измерения независимых переменных на коэффициенты уравнения регрессии?

5. Как число опытов влияет на дисперсию коэффициентов регрессии?

6. Что необходимо предпринимать для уменьшения влияния погрешностей измерения независимых переменных на точность модели регрессии?


Лекция 8Рекуррентные алгоритмы построения математического описания дрейфующих объектов. Метод текущего регрессионного

Анализа

При построении математического описания промышленных объектов приходится встречаться с фактом неконтролируемого изменения характеристик объекта во времени. Объекты, обладающие такими свойствами, называются нестационарными (дрейфующими). Причиной являются наличие неконтролируемых воздействий, значения которых не могут учитываться при построении модели объекта. Дрейф характеристик может возникать из-за изменения активности катализатора, износа огнеупоров тепловых агрегатов, изменения условий работы, влияние времен года и др. Как правило, изменение дрейфующих параметров происходит значительно медленнее процесса изменения контролируемых переменных.

В предыдущих лекциях при построении математического описания по выборке оценивались математические ожидания коэффициентов модели в предположении отсутствия дрейфа. Будем рассматривать случай, когда действительные значения коэффициентов изменяются во времени. Для этого выбирается адаптивный путь решения задачи, в котором по выборке необходимо получить помимо математического ожидания коэффициентов оценки рядя параметров, значения которых определяются неизвестными априори свойствами дрейфа [4].

При решении задачи построения математического описания дрейфующего объекта возможны ситуации двух типов:

1) по выборке наблюдений за входом и выходом объекта на некотором интервале времени от t0 до t>t0 необходимо найти оценки вектора коэффициентов модели, близкие к действительным значениям коэффициентов в момент t+α, где α≥0;

2) осуществляется непрерывное слежение за изменением коэффициентов модели. В любой момент времени t требуется найти наилучшее приближение к действительным значениям коэффициентов в момент t+α.

Вторая ситуация аналогична первой при стремлении длины интервала наблюдений к бесконечности.

 








Дата добавления: 2017-09-19; просмотров: 845;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.033 сек.