Линейная парная регрессия.
После того, как с помощью корреляционного анализа выявлено наличие статистических связей между переменными и оценена степень тесноты, обычно переходят к математическому описанию вида зависимостей с использованием регрессионного анализа. Если коэффициент корреляции , то согласно шкале Шеддока связи между переменными нет, а следовательно не имеет смысла описывать модель связи.
Регрессионная модель представляет собой математическое выражение, связывающее случайные величины . Уравнение регрессии – это зависимость величины от .
Часто встречающейся моделью зависимости является линейная парная корреляция. Вообще говоря, уравнение регрессии может описывать взаимосвязь не двух, а более переменных (то есть быть не парной, а множественной). Кроме того, связь между переменными далеко не всегда линейна.
В общем случае уравнение регрессии имеет вид:
,
где параметры модели, ошибка наблюдений, произвольная функция.
Уравнение парной линейной регрессии выглядит следующим образом:
,
где и - параметры уравнения линейной регрессии.
Для нахождения параметром применяют метод наименьших квадратов, согласно которому неизвестные и выбираются таким образом, чтобы сумма квадратов отклонений эмпирических средних значений от значений, найденных по уравнению регрессии была минимальной:
.
Получим систему нормальных уравнений для нахождения искомых параметров:
Разделив обе части уравнений на , получим систему нормальных уравнений в виде:
Решая систему уравнений, найдем:
зная, что и формулу для вычисления коэффициента корреляции можем записать:
Коэффициент называется коэффициентом регрессии. Он показывает, на сколько единиц в среднем изменяется переменная при изменении на одну единицу.
Замечание. Знак коэффициента регрессии указывает на направление связи: если , связь прямая, если - обратная. Очевидно, что знаки коэффициентов корреляции и регрессии должны совпадать.
Решая систему относительно параметра , получим:
.
Для установления влияния на зависимую переменную независимой переменной, то есть для интерпретации модели используется коэффициент эластичности:
.
Коэффициент эластичности показывает, на сколько процентов изменится при изменении на 1 %.
Вывод
Пример 16. В условиях предыдущей задачи найти уравнение линейной регрессии, выражающее зависимость между заработной платой рабочих и числом уволившихся.
Решение.
1. Для определения параметров и линии регрессии составим систему нормальных уравнений:
2. Подставляя найденные в предыдущей задаче средние значения , , , получим:
3. Решая эту систему, найдем ; 98,85. Тогда уравнение регрессии:
.
Отрицательный коэффициент регрессии подтверждает то, что связь между заработной платой рабочих и текучестью кадров обратная. Вычислим коэффициент эластичности:
.
Полученный коэффициент свидетельствует о том, что при увеличении заработной платы на 1%, число увольняющихся в среднем сократиться на 2,3%.
Пример выполнения контрольной работы
Задание 1. В результате статистического исследования, проведенного среди работников некоторого промышленного объединения на основе случайной выборки, получены следующие данные о величине совокупного месячного дохода (тыс. руб.)
1,806 | 10,530 | 7,540 | 5,347 | 4,601 | 6,115 | 2,189 | 6,992 | 5,479 | 3,829 |
4,519 | 3,188 | 4,496 | 7,868 | 5,201 | 7,337 | 7,293 | 4,439 | 2,712 | 3,283 |
6,370 | 3,324 | 4,891 | 3,830 | 3,782 | 5,703 | 6,135 | 4,537 | 8,074 | 3,942 |
8,025 | 4,685 | 3,749 | 4,582 | 6,580 | 5,430 | 6,252 | 6,928 | 6,508 | 6,377 |
7,602 | 3,852 | 5,564 | 4,005 | 3,954 | 4,185 | 4,324 | 0,502 | 5,958 | 4,869 |
Выполнить статистическую обработку полученных данных.
Решение.
1. Для полученной выборочной совокупности объемом :
а). Производим ранжирование выборочных данных.
0,502 | 1,806 | 2,189 | 2,712 | 3,188 | 3,283 | 3,324 | 3,749 | 3,782 | 3,829 |
3,830 | 3,852 | 3,942 | 3,954 | 4,005 | 4,185 | 4,324 | 4,439 | 4,496 | 4,519 |
4,537 | 4,582 | 4,601 | 4,685 | 4,869 | 4,891 | 5,201 | 5,347 | 5,430 | 5,479 |
5,564 | 5,703 | 5,958 | 6,115 | 6,135 | 6,252 | 6,370 | 6,377 | 6,508 | 6,580 |
6,928 | 6,992 | 7,293 | 7,540 | 7,602 | 7,868 | 8,025 | 8,074 | 8,337 | 10,530 |
б) Определяем минимальное и максимальное значение признака.
тыс.руб.; тыс.руб.
в) Находим размах варьирования признака
тыс.руб.
г) Определяем число групп, на которые разбиваем выборочную совокупность (округление проводим до ближайшего целого)
k =7.
д) Определяем длину интервала по формуле
е) Определяем границы интервалов и группируем данные по соответствующим интервалам. Границы интервалов ( , ), i=1,2,…,k, получаем следующим образом
; +h; .
Замечание. В данном случае за начало первого интервала принимаем , так как если воспользоваться формулой , то получим , что не имеет экономического смысла, то есть при определении границ интервала не стоит забывать об экономическом содержании задачи.
В процессе группировки определяем количество вариант, удовлетворяющих неравенствам , и строим интервальный вариационный ряд путем заполнения таблицы:
№ интервала | Границы интервала - | Частота | Накопленная частота |
0,502-1,935 | |||
1,935-3,367 | |||
3,367-4,800 | |||
4,800-6,232 | |||
6,232-7,665 | |||
7,665-9,097 | |||
9,097-10,530 | |||
- | - |
ж) На основе полученных данных строим статистический ряд распределения и его геометрические представления.
В пределах каждого интервала все значения признака приравниваем к его серединному значению ( + )/2 и считаем, что частота относится именно к этому значению. Необходимые вычисления производим в таблице:
№ Интер вала | Интервалы - | Частости | Накопленные частости | Относительная плотность распределения | |
0,502-1,935 | 1,218 | 0,04 | 0,04 | 0,028 | |
1,935-3,367 | 2,651 | 0,1 | 0,14 | 0,070 | |
3,367-4,800 | 4,083 | 0,34 | 0,48 | 0,237 | |
4,800-6,232 | 5,516 | 0,22 | 0,7 | 0,154 | |
6,232-7,665 | 6,949 | 0,2 | 0,9 | 0,140 | |
7,665-9,097 | 8,381 | 0,08 | 0,98 | 0,056 | |
9,097-10,530 | 9,814 | 0,02 | 0,014 | ||
__ | __ | 1,00 | __ | __ |
Статистический ряд распределения образуют данные 2-го и 3-го столбцов таблицы. Для построения гистограммы распределения используются данные 1-го и 5-го столбцов, полигона -2-го и 5-го столбцов, кумуляты (функции распределения)– данные 1-го и 4-го столбцов.
Напомним, что для построения гистограммы по оси абсцисс откладываются частичные интервалы ( , ), на каждом из которых строим прямоугольник высотой . Площадь ступенчатой фигуры, образуемой гистограммой, равна единице. Соединяя середины верхних оснований прямоугольников отрезками прямой, из гистограммы можно получить полигон распределения (рис. 8).
При построении кумуляты в точках, соответствующих правому концу интервалов, по оси ординат откладываются накопленные частности , которые затем соединяются ломаной линией (рис.9)
Рис 9. Кумулята распределения
2. Найдем выборочную среднюю, выборочную дисперсию, среднее квадратическое отклонение выборки, моду и медиану.
а) Вначале находим выборочное среднее, характеризующее центр распределения, около которого группируются выборочные данные, как взвешенное среднее
тыс.руб.
Обозначая далее , где , вычисляем отклонения варианты от среднего значения и заполняем таблицу:
№ п./п. | ||||||
1,218 | 0,04 | -3,954 | 0,049 | -0,158 | 0,625 | |
2,651 | 0,10 | -2,521 | 0,265 | -0,252 | 0,636 | |
4,083 | 0,34 | -1,089 | 1,388 | -0,370 | 0,403 | |
5,516 | 0,22 | 0,344 | 1,214 | 0,076 | 0,026 | |
6,949 | 0,20 | 1,776 | 1,390 | 0,355 | 0,631 | |
8,381 | 0,08 | 3,209 | 0,670 | 0,257 | 0,824 | |
9,814 | 0,02 | 4,642 | 0,196 | 0,093 | 0,431 | |
- | 1,00 | - | 5,172 | 0,000 | 3,576 |
Дисперсия выборочного распределения: .
Среднее квадратическое отклонение .
В данном распределении модальным является интервал (3,367 – 4,800), так как ему соответствует наибольшая частота ( ). Значение моды определим по формуле:
.
Место медианы , поэтому медианным является интервал (4,800 – 6,232), так как в этом интервале находятся номера 25 и 26. Вычислим медиану:
.
3. Проверим гипотезу о соответствии имеющего статистического распределения нормальному закону.
Число наблюдений в крайних интервалах меньше 5, поэтому объединяем их с соседними. Получим:
Интервал | 0,502 – 3,367 | 3,367 – 4,800 | 4,800 – 6,232 | 6,232 – 7,665 | 7,665 – 10,530 |
Частота , |
Оценки параметров распределения вычислим по выборке:
;
,
где , , .
Плотность распределения вероятностей теоретического распределения на каждом интервале рассчитывается по формуле .
Расчеты выполним в табличной форме:
№ п./п. | Интервалы - | ||||||||
0,502-3,367 | 0,14 | -0,96 | -0,500 | -0,3315 | 0,1685 | 8,425 | 5,82 | ||
3,367-4,800 | 0,34 | -0,96 | -0,21 | -0,3315 | -0,0832 | 0,2483 | 12,415 | 23,28 | |
4,800-6,232 | 0,22 | -0,21 | 0,54 | -0,0832 | 0,2054 | 0,2886 | 14,43 | 8,39 | |
6,232-7,665 | 0,20 | 0,54 | 1,30 | 0,2054 | 0,4032 | 0,1978 | 9,89 | 10,11 | |
7,665-10,530 | 0,10 | 1,30 | 0,4032 | 0,500 | 0,0968 | 4,84 | 5,17 | ||
- | 1,00 | - | - | - | - | 1,000 | 52,76 |
Вычисляем наблюдаемое значение критерия :
.
Число степеней свободы по выборке равно , где число интервалов, число параметров распределения, в нашем случае:
.
При уровне значимости и по таблице распределения находим . Так как , то нет оснований отвергнуть выдвинутую гипотезу.
4. Точечная оценка математического ожидания найдена при проверке гипотезы о соответствии распределения нормальному закону: (метод моментов).
Доверительный интервал для математического ожидания при известной дисперсии определяется из неравенства:
,
где определяется из уравнения .
Учитывая, что , получаем . По таблице находим . Тогда . Доверительный интервал для математического ожидания будет:
, то есть .
Задание 2. Имеются следующие данные о расходе бензина автомобилями некоторой марки:
Мощность двигателя, л.с. | Расход бензина, л. /100км. | Мощность двигателя, л.с. | Расход бензина, л. /100км. |
9,5 5,7 9,0 6,1 14,5 6,0 17,4 8,0 7,3 22,0 | 12,7 13,0 18,0 11,0 12,6 17,5 16,1 19,7 10,2 15,0 |
Требуется:
1. Оценить степень зависимости между переменными;
2. Найти уравнение линейной регрессии;
3. Интерпретировать полученную модель, сделать выводы.
Решение.
1. Для определения тесноты связи вычислим коэффициент корреляции, для чего составим расчетную таблицу:
6,0 | 36,00 | 504,0 | |||
5,7 | 32,49 | 495,9 | |||
6,1 | 37,21 | 549,0 | |||
7,3 | 53,29 | 722,7 | |||
8,0 | 64,00 | 840,0 | |||
9,5 | 90,25 | 1045,0 | |||
9,0 | 81,00 | 1035,0 | |||
11,0 | 121,00 | 1375,0 | |||
10,2 | 104,04 | 1346,4 | |||
12,6 | 158,76 | 1764,0 | |||
12,7 | 161,29 | 1816,1 | |||
13,0 | 169,00 | 1950,0 | |||
14,5 | 210,25 | 2320,0 | |||
15,0 | 225,00 | 2475,0 | |||
16,1 | 259,21 | 2817,5 | |||
17,4 | 302,76 | 3306,0 | |||
17,5 | 306,25 | 3500,0 | |||
18,0 | 324,00 | 3690,0 | |||
19,7 | 388,09 | 4334,0 | |||
22,0 | 484,00 | 5280,0 | |||
251,3 | 3607,89 | 41165,6 |
Коэффициент корреляции рассчитывается по формуле:
.
а) Найдем средние значения:
(сумма значений второго столбца, деленная на число строк:
;
(сумма значений третьего столбца, деленная на число строк):
;
(среднее значение шестого столбца):
.
б) Найдем средние квадратические отклонения и :
где рассчитывается как среднее значение четвертого столбца.
Аналогично ,
где - среднее значение пятого столбца.
в) Подставляя найденные значения в формулу коэффициента корреляции, получим:
.
2. Найдем уравнение линейной регрессии.
а) Для определения параметров и линии регрессии составим систему нормальных уравнений:
б) Подставляя найденные в предыдущем пункте задачи средние значения , , , , получим:
в). Решая эту систему, найдем ; -2,11. Тогда уравнение регрессии имеет вид:
.
3. Таким образом, можно сделать вывод, что связь между мощностью двигателя и расходом бензина прямая и очень тесная, так как полученный коэффициент корреляции положительный и очень близок к единице. Это говорит о том, что чем больше мощность двигателя ( ), тем больше расход бензина ( ).
Выясним, какая часть вариации обусловлена вариацией , для этого вычислим коэффициент детерминации:
.
То есть вариация расхода бензина ( ) на 98% обусловлена вариацией мощности двигателя ( ).
Положительный коэффициент регрессии подтверждает то, что связь между мощностью двигателя и расходом топлива прямая. Вычислим коэффициент эластичности:
.
Полученный коэффициент свидетельствует о том, что при увеличении мощности двигателя на 1%, расход бензина в среднем увеличится на 1,17 %.
Дата добавления: 2016-04-22; просмотров: 3976;