И индивидуального значений результирующего признака
Поскольку в основном для построения регрессионных моделей используются данные выборок, то зачастую интерпретация взаимосвязей между переменными в генеральной совокупности базируется на выборочных результатах.
Как было сказано выше, регрессионное уравнение используется для прог-ноза значений Y по заданному значению X. В нашем примере показано, что при 600 посетителях магазина сумма выручки могла бы быть 7,661 у.е. Однако это значение — только точечная оценка истинного среднего значения. Известно, что для оценки истинного значения генерального параметра существует интервальная оценка.
Доверительный интервал для оценки неизвестного генерального значения имеет вид
(29)
где
(30 )
Здесь — предсказанное значениеY:
— стандартная ошибка оценки; п — объем выборки; хi — заданное значение X.
Величина доверительного интервала зависит от нескольких факторов. Для заданного уровня значимости а увеличение вариации вокруг линии регрессии, измеряемой стандартной ошибкой оценки, увеличивает величину интервала. Увеличение объема выборки уменьшит величину интервала. Более того, ширина интервала также варьирует с различными значениями X. Когда оценивается по значениям X, близким к, то интервал тем уже, чем меньше абсолютное отклонение от (рис. 9.5).
Рисунок - Доверительные интервалы для оценки неизвестного генерального значения
Когда оценка осуществляется по значениям X, удаленным от среднего, то величина интервала возрастает.
Рассчитаем 95%-й доверительный интервал для среднего значения выручки во всех магазинах с числом посетителей, равным 600. По данным нашего примера уравнение регрессии имеет вид
=2,423+0,00873х
и для = 600 получим =7,661, а также =731,15; =0,497;
=14623; =11306209.
По таблице Стьюдента (приложение 1)
t18 = 2,10.
Используя формулы(29) и (30)рассчитаем границы искомого доверительного интервала
Итак, 7,369 7,953.
Наша оценка состоит в том, что средняя норма рентабельности находится между 7,369 и 7,953 у.е. для всех предприятий, где средняя выработка на одного работника составляет 600 рублей.
Для построения доверительного интервала для индивидуальных значений , лежащих на линии регрессии, используется доверительный интервал регрессии вида
(31)
где и — определяются, как и в формулах (29) и (30).
Определим 95% -и доверительный интервал для оценки уровня рентабельности отдельного предприятия выработкой на одного работника600рублей.
Итак, 6,577 8,745.
Следовательно, с 95%-и уверенностью можно утверждать, что уровень рентабельности отдельного предприятия, на котором величина средней выработки на одного работника составляет 600 рублей, находится в пределах от 6,577 до 8,745 %. Величина этого интервала больше чем величина интервала, полученного ранее для оценки среднего значения Y.
Доверительные интервалы для оценки истинных значений неизвестного параметра уравнения регрессии b1 и коэффициента регрессии r в генеральной совокупности.
Чтобы построить доверительный интервал для истинного значения генерального параметра , для этого проверяют гипотезу о равенстве нулю . Если гипотеза будет отклонена, то подтверждается существование линейной зависимости У от X.
Формулировка нулевой и альтернативной гипотезы будет выглядеть так:
(линейной зависимости нет);
(линейная зависимость есть).
Для проверки гипотезы используется t-критерий (случайная величина t, имеющая распределение Стьюдента с n - 2 степенями свободы):
,
где
Убедимся, что полученный выборочный результат является достаточным для заключения о том, что зависимость уровня рентабельности от величины средней выработки одного работника статистически существенна на 5%-м уровне значимости.
Следовательно,
Найдем наблюдаемое значение критерия t
(по таблице распределения Стьюдента, приложение 1).
Так как 13,77 > 2,10, то нулевая гипотеза отвергается в пользу альтернативной гипотезы , и можно говорить о наличии существенной линейной зависимости ежедневной выручки от числа посетителей магазина.
Второй, эквивалентный первому, метод для проверки наличия или отсутствия линейной зависимости переменной Y от Х состоит в построении доверительного интервала для оценки и определении того, принадлежит ли значение этому интервалу. Доверительный интервал для оценки получают по формуле
Найдем для нашего примера 95% -и доверительный интервал для оценки :
Итак, 0,0074 0,01006,
т. е. с 95%-и уверенностью можно считать, что истинное значение коэффициента регрессии находится в промежутке между числами 0,0074 и 0,01006. Так как эти значения больше нуля, то можно сделать вывод, что существует статистически значимая линейная зависимость уровня рентабельности от вредней выработки. Если бы интервал включал нулевое значение, то мы не смогли бы сделать этого вывода.
Третий метод проверки существования линейной связи между двумя переменными состоит в проверке выборочного коэффициента корреляции r.
Для этого выдвигается нулевая гипотеза (нет корреляции).
Альтернативная гипотеза (корреляция существует).
Для проверки нулевой гипотезы используем 1-критерий (случайную величину t, имеющую распределение Стьюдента с п - 2 степенями свободы)
.
Наблюдаемое значение t составит
Полученный результат практически совпадает со значением, полученным по формуле (9.35). Следовательно, мы вновь подтверждаем наличие линейной связи между двумя переменными Y и X.
Дата добавления: 2016-11-02; просмотров: 599;