Індивідуальне завдання №1 3 страница
Зауваження. Коефіцієнт детермінації є сенс розглядати тільки у випадку наявності вільного члена в моделі (2.2), тобто , оскільки тільки у цьому випадку, як це вище відзначалося, виконується рівність (2.42), а, отже, і співвідношення (2.46*).
Зміст нагадує зміст вибіркового коефіцієнта кореляції . Це обумовлено рівністю
, (2.47)
яка отримується із використанням (2.46), (1.20), (2.13):
.
Числові характеристики та є точковими статистичними оцінками відповідних невідомих чисел. У зв’язку із цим навіть у випадку та можуть бути відмінними від нуля. А тому виникає необхідність перевірити значущість та , отриманих для конкретної вибірки.
Якщо , тобто відсутня лінійна залежність між залежною і пояснюючою змінними, тоді випадкові величини
та
мають -розподіли відповідно із 1 та ступенями вільності, а їх відношення (згідно із (1.15)) — розподіл Фішера з тими ж ступенями вільності. Тому рівняння регресії значуще на рівні значущості , якщо виконується нерівність
, (2.48)
де — табличне значення -критерія Фішера-Снедокора, визначене на рівні значущості при і ступенях вільності.
Проте виявляється [8, с.97], що -тест (2.48) рівносильний -тесту Ст’юдента при перевірці значущості параметра (у випадку парної лінійної моделі).
В ряді задач потрібно оцінити значущість коефіцієнта кореляції . На рівні значущості він вважається значущим (тобто відкидається гіпотеза ), якщо виконується нерівність (1.21). Однак неважко показати, що отримувані значення -критерію при перевірці гіпотез по (2.33) і по (1.21) однакові.
Отже, якщо на рівні зроблено висновок про значущість , то на тому ж рівні вважається значущим і генеральний (теоретичний) коефіцієнт кореляції і навпаки.
Наведемо інші прості показники якості лінійної регресії, які використовуються як додаткова інформація при виборі найкращої моделі з можливих.
Абсолютна середня відсоткова помилка МАРЕ (mean absolute percentage error):
. (2.49)
Цей показник використовується при порівнянні точності прогнозів різнорідних об’єктів, бо характеризує відносну точність прогнозу. При цьому вважається, що значення МАРЕ, менше 10%, дає високу точність прогнозу, а, отже, і якість моделі; від 10% до 20% — добру точність; від 20% до 50% — задовільну точність; понад 50% — незадовільну точність.
Середня відсоткова помилка МРЕ (mean percentage error):
. (2.50)
Це показник незміщеності прогнозу. З точки зору практики для якісних моделей цей показник повинен бути «малим», тобто не перевищувати 5%.
Зауваження. Показники (2.49) та (2.50) — невизначені, якщо серед є нульове значення.
10. Якщо встановлено, що побудована модель є адекватною, тоді можна знаходити прогнозні значення залежної змінної. При цьому можна отримати два типи прогнозів: точковий та інтервальний. Нехай задається значення незалежної змінної. Тоді точковий прогноз для значення залежної змінної за моделлю (2.11) має такий вигляд:
. (2.51)
Разом з тим дійсне значення залежної змінної для прогнозного періоду згідно із (2.3) дорівнює:
, (2.52)
де стосовно випадкової величини природно вимагати виконання передумов 1-4, тобто
. (2.53)
Отже, є точковою оцінкою невідомого числа , яке є реалізацією (можливим значенням) випадкової величини (2.52).
Згідно із (2.51), (2.52) помилка прогнозу:
. (2.54)
Потрібно знайти числові характеристики та закон розподілу. Незміщеність оцінок , і (2.53) призводять до рівності . Оскільки не корелює із , то згідно із (2.3) не корелює і з . Тому із врахуванням детермінованості , , , (2.14), (2.18), (2.19) отримаємо:
.
Неважко переконатися також у лінійній залежності від збурень . А тому остаточно отримуємо:
,
де
.
Незміщена оцінка знаходиться за формулою
, (2.55)
де визначена формулою (2.22).
За аналогією із побудовою інтервальної зони функції регресії (п.7) остаточно можна отримати довірчий інтервал для прогнозного значення залежної змінної:
. (2.56)
11. Задача 2.1. Торгівельне підприємство має велику кількість філій і його керівництво вивчає питання про залежність (річний товарообіг однієї філії, млн. грн.) від (торгівельної площі, тис. м2). Для десяти філій за певний рік зафіксовані такі значення показників і :
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
1,5 | 2,9 | 3,1 | 3,2 | 4,3 | 5,7 | 5,8 | 7,2 | 7,5 | ||
0,2 | 0,3 | 0,5 | 0,6 | 0,8 | 1,1 | 1,2 | 1,3 | 1,4 |
На обсяг товарообігу впливають такі чинники: середньоденна інтенсивність потоку покупців, об’єм основних фондів, їх структура, середньоспискова чисельність працівників, площа підсобних приміщень тощо. Припускається, що в досліджуваній групі філій значення цих чинників приблизно однакові, тому вплив відмінностей їх значень на зміну обсягу товарообігу є незначним.
Вважаючи, що виконуються передумови 1-4, потрібно:
1) знайти статистичні оцінки параметрів лінійного рівняння регресії;
2) точкову оцінку та довірчий інтервал дисперсії збурень із надійністю ;
3) для рівня значущості перевірити значущість коефіцієнтів регресії та ;
4) знайти довірчі інтервали коефіцієнтів регресії з надійністю ;
5) знайти вибіркові коефіцієнт детермінації, коефіцієнт кореляції, а також інші показники якості лінійної регресії (МАРЕ, МРЕ);
6) знайти та побудувати довірчу зону функції регресії з надійністю ;
7) знайти прогнозне значення річного товарообігу для нової філії, торгівельна площа якої складає 1,8 тис. м2, а також із надійністю побудувати довірчий інтервал для цього прогнозного значення.
¡ 1) Статистичні оцінки , параметрів та лінійного рівняння регресії задовольняють системі нормальних рівнянь (2.12):
Для знаходження коефіцієнтів цієї системи складемо розрахункову табл. 2.1, останній стовпець якої потрібний для обчислення .
Таблиця 2.1
1 | 0,2 | 1,5 | 0,04 | 0,3 | 2,25 |
2 | 0,3 | 2,9 | 0,09 | 0,87 | 8,41 |
3 | 0,5 | 3,1 | 0,25 | 1,55 | 9,61 |
4 | 0,6 | 3,2 | 0,36 | 1,92 | 10,24 |
5 | 0,8 | 4,3 | 0,64 | 3,44 | 18,49 |
6 | 5,7 | 5,7 | 32,49 | ||
7 | 1,1 | 5,8 | 1,21 | 6,38 | 33,64 |
8 | 1,2 | 1,44 | 8,4 | ||
9 | 1,3 | 7,2 | 1,69 | 9,36 | 51,84 |
10 | 1,4 | 7,5 | 1,96 | 10,5 | 56,25 |
8,4 | 48,2 | 8,68 | 48,42 | 272,22 |
Використовуючи нижній рядок табл. 2.1, отримаємо (обсяг вибірки ):
; ;
; ;
;
Єдиний розв’язок цієї системи рівнянь згідно із формулами (2.13):
,
.
Отже, емпіричне рівняння регресії має такий вигляд:
. (2.57)
2) Незміщену точкову оцінку невідомої дисперсії збурень знайдемо за формулою (2.22):
,
попередньо обчисливши та , , (табл. 2.2).
Таблиця 2.2
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | ||
1,5 | 2,9 | 3,1 | 3,2 | 4,3 | 5,7 | 5,8 | 7,2 | 7,5 | – | ||
1,6938 | 2,1822 | 3,159 | 3,6474 | 4,6242 | 5,601 | 6,0894 | 6,5778 | 7,0662 | 7,5546 | – | |
-0,1938 | 0,7178 | -0,059 | -0,4474 | -0,3242 | 0,099 | -0,2894 | 0,4222 | 0,1338 | -0,0546 | 0,0044 | |
0,0376 | 0,5152 | 0,0035 | 0,2002 | 0,1051 | 0,0098 | 0,0838 | 0,1783 | 0,0179 | 0,003 | 1,1544 |
Зауваження. Згідно із (2.21): , в той час як у нашому випадку . Цим значенням можна ігнорувати (вважати практично рівним нулю). Разом з тим з’ясуємо причину такого відхилення від нуля. Значення та з точністю до шести знаків після коми відповідно складають 4,884236 та 0,717242, тобто обидва ці значення (хай і несуттєво) більші тих, які взяті у моделі (2.57). Накопичення додатних похибок у різницях і привело до того, що незначно перевищує нуль. Відмітимо також, що значення , приводять до рівності .
Використавши підсумок останнього рядка, отримаємо:
.
Ліва і права межі довірчого інтервалу для визначаються згідно (2.29) за формулами відповідно і , де у відповідності із (2.26) та (2.27) та є коренями рівнянь
, ,
, .
За табл. 4 додатків для знайдемо: і . Тоді ліва межа довірчого інтервалу дорівнює , а права — . Тобто остаточно з надійністю 0,9
.
3) Згідно з п.8, якщо виконується нерівність (2.33): , тоді на рівні значущості приймається гіпотеза . Значення та знайдемо із виразів (2.30):
;
.
Тоді спостережені значення критерію:
, .
Критична точка для двосторонньої критичної області при значеннях , знаходиться за верхньою частиною табл. 3 додатків: .
Оскільки і , то на рівні значущості робимо висновки, що і .
4) Згідно з (2.39) та (2.40) довірчі інтервали з надійністю для невідомих параметрів регресії та мають такий вигляд:
,
де , — корінь рівняння , та — випадкові величини, розподілені за законом Ст’юдента.
У нашому випадку , число ступенів вільності . За табл. 2 додатків знаходимо . Тоді з врахуванням знайдених значень , отримаємо:
,
або остаточно
,
.
5) Коефіцієнт детермінації знайдемо за формулою (2.46*):
.
Із табл. 2.2 (останнє число нижнього рядка) .
Для знаходження використаємо табл. 2.1:
.
Отже,
.
Таким чином, варіація залежної змінної на 97,11% пояснюється варіацією пояснюючої змінної.
Вибірковий коефіцієнт кореляції згідно із (2.47):
.
При цьому додатний знак цього числа обрано в зв’язку з тим, що .
Обчислимо абсолютну середню відсоткову помилку МАРЕ за формулою (2.49):
.
Для цього використаємо другий і четвертий рядки табл. 2.2:
.
Отже, , тобто відповідає високій точності прогнозу за моделлю.
Середню відсоткову помилку МРЕ знайдемо за формулою (2.50):
,
використавши розрахунки при обчисленні МАРЕ:
.
Остаточно
.
Висновок: всі знайдені показники вказують на високу якість моделі.
6) Побудова довірчої зони для функції регресії передбачає побудову точок з координатами , , з наступним з’єднанням сусідніх (по індексу ) точок прямолінійними відрізками, а потім здійснення аналогічної процедури для послідовності точок .
Дата добавления: 2016-06-13; просмотров: 1072;