Перевірка статистичних гіпотез
Емпіричні методи досліджень передбачають використання розглянутих та інших критеріїв для різноманітних задач аналізу емпіричних даних.
Статистичною гіпотезою називається будь-яке припущення щодо властивостей генеральної сукупності на основі оцінок вибірки, припущення щодо виду або параметрів невідомого закону розподілу. Статичну гіпотезу прийнято позначати Н.
Розрізняють прості і складні статистичні гіпотези.
Проста гіпотеза – повністю визначає теоретичну функцію розподілу випадкової величини. Ті що не визначають – називаються складними. Статистичні гіпотези підрозділяються на нульові та альтернативні.
Нульова гіпотеза - позначається Н0 – це гіпотеза про відсутність відмінностей у значеннях ознак.
Альтернативна гіпотеза – позначається Н1 – це гіпотеза є логічним запереченням Н0, тобто – це гіпотеза про існування відмінностей.
Статистичні гіпотези можуть бути також:
- спрямованими – висувають про те, що значення показника в одній сукупності нижче ніж значення показника в іншій. Також називають однобічними.
- неспрямованими – формулюють якщо необхідно довести відмінності форми розподілу або значень показників відхилень. Також називають двобічними.
Перевірка гіпотез здійснюється на основі статистичних критеріїв.
Статистичний критерій – це правило, що забезпечує математично обґрунтоване прийняття істинної і відхилення помилкової гіпотези. Статистичні критерії – практично являють собою метод розрахунку певного числа, яке позначається як емпіричне значення критерію. Дане значення порівнюється з деким критичним значенням для даного критерію. Співідношення між ними є підставою для підтвердження чи спростування гіпотези.
Критерії поділяються на:
- параметричні – використовуються в завданнях перевірки параметричних гіпотез і включають в свій розрахунок конкретні показники розподілу. Дозволяють безпосередньо оцінити параметри сукупностей чи вибірок. Оцінити середні відмінності в дисперсіях. Такі критерії дають можливість виявити тенденції зміни ознак, оцінити впливи факторів на ознаку.
- непараметричні – оперують частотами, рангами тощо.
Застосування таких критеріїв для прийняття або відхилення статистичних гіпотез завжди здійснюється з певною довірчою ймовірністю, інакше кажучи на певному рівні значущості.
Рівень значущості – це ймовірність того, що ми в результаті застосування критеріїв визнали відмінності істотними, а насправді вони випадкові. Рівень статистичної значущості у більшості випадків прийнятий за 5%. Існує значна кількість різних типів статистичних гіпотез. Ці типи визначаються сукупністю завдань та методів їх розв’язання.
Основні групи статистичних гіпотез за прикладними задачами, яких вони стосуються:
- гіпотези стосовно закону розподілу;
- гіпотези стосовно чисельних показників параметрів розподілів;
- гіпотези стосовно однорідності вибірок;
- гіпотези стосовно рівня ознак досліджуваного явища або процесу.
Незважаючи на різноманітність типів гіпотез і критеріїв загальна схема перевірки статистичних гіпотез наступна:
1) формулювання нульової та альтернативної гіпотези на основі задачі дослідження;
2) перевірка припущень щодо відповідності розподілам, перевірка параметрів вибірки, та іншої додаткової інформації.
3) прийняття рівня значущості;
4) вибір статистичного критерію;
5) розрахунки емпіричного критерію;
6) визначення області критичних значень критерію;
7) прийняття статистичного рішення;
8) формулювання статистичних висновків;
9) формулювання змістовних висновків.
В статистиці існують 2 підходи стосовно методів перевірки гіпотез. За одним із них обов’язково формулюють і 0, і альтеративну гіпотезу, перевірки яких відбуваються незалежно і повноцінно. При іншому підході формулювання альтернативних гіпотез не відбувається взагалі.
Задачі що вирішуються:
- перевірка гіпотез щодо однорідності вибірок
- перевірка гіпотез про чисельні значення параметрів
- гіпотези про виявлення відмінностей та зсувів в ознаках
- перевірка значущості коефіцієнтів кореляції
При використанні методів математичної статистики встановити закон розподілу є однією з найпріоритетніших задач. Майже будь-яка статистична обробка, як правило, починається із спроби оцінити закон розподілу. Застосування методів які розроблено для певного закону розподілу в умовах. Коли реальний розподіл відрізняється від прийнятого є найбільш розповсюдженою помилкою. Критерії перевірки гіпотез, щодо закону розподілу, прийнято називати критеріями згоди.
Критерії згоди поділяють на 2 групи:
- загальні – застосовують щодо формулювання гіпотез про згоду спостережень з будь-яким розподілом.
- спеціальні – застосовують в разі перевірки гіпотези стосовно конкретної форми розподілу. Такі критерії носять відповідну назву: критерії нормальності, критерії рівномірності.
Розглянем деякі критерії, та їх застосування. Так, зазвичай, розрахунки емпіричного розподілу, та його графічна візуалізація не дають надійних підстав для висновку щодо закону розподілу. Серед методів оцінювання законів розподілу відомо біля 20 різних емпіричних методів спеціально розроблених для перевірки нормальності. Найбільш розповсюдженими є: критерій (універсальний критерій), критерій асиметрії та ексцесу, критерій Шапіро-Вілка W.
Критерій згоди полягає у порівнянні емпіричної гістограми розподілу з теоретичною щільністю розподілу. Статистика критерію наступна:
Тутk – кількість інтервалів, на які розбивають діапазон виміряних емпіричних даних;
mi – кількість значень випадкової величини, що потрапили в інтервал;
n – обсяг вибірки;
pi – теоретична імовірність випадкової величини потрапити в вибірковий інтервал.
Для будь-якого закону розподілу F(x) pi визначається наступним чином:
де – густина розподілу
Критичні значення критерію для певного ступеня довіри беруться з відповідних таблиць.
Критерій асиметрії та ексцесу застосовують для приблизної перевірки гіпотези про нормальність емпіричного розподілу. Для нормального розподілу коефіцієнти асиметрії та ексцесу рівні 0. Практично щоб одержати оцінку за даним методом обчислюються так звані дисперсії асиметрії та ексцесу:
,
Вважається, що при нормальному розподілі вибіркові показники асиметрії та ексцесу дорівнюватимуть нулю, але реально таке майже не спостерігається. Тому емпіричний розподіл вважають близьким до нормального (приймають нульову гіпотезу), якщо виконуються умови: та . Технологічно при цьому розраховують показники і . Про достовірну відмінність емпіричного розподілу від нормального свідчать показники і , якщо приймають значення 3 і більше.
Статистика Шапіро-Вілка має наступний вигляд:
де n – обсяг вибірки; ; ; m – ціла частина ; коефіцієнти є довідковим матеріалом по даній статистиці.
Для перевірки однорідності незв’язаних вибірок нерідко використовується критерій Стьюдента t, статистика якого має вид:
,
де і , , , і – середні, дисперсії та обсяги першої і другої вибірок відповідно.
Критичне значення критерію tкр для заданого рівня значущості a й числа ступенів вільності ( ) можна отримати з таблиць розподілу Стьюдента.
Крім критерія Стюдента для перевірки однорідності широко використовується критерій Крамера-Вельча T. Даний критерій побудований на підході оцінювання рівностей математичних очікувань генеральних сукупностей, звідки взято вибірки. Статистика критерію має вигляд:
,
де невідомі дисперсії замінені їхніми вибірковими оцінками. При рості обсягів вибірок розподіл статистики T Крамера Велча збігається до стандартного нормального розподілу з математичним очікуванням 0 і дисперсією 1.0. Правило ухвалення рішення для критерію Крамера-Вельча виглядає так: якщо , то гіпотеза однорідності (рівності математичних очікувань) приймається на рівні значущості . У прикладній статистиці найбільш часто застосовують рівень значущості 0,05. Тоді критичне значення .
Для перевірки гіпотези про рівність дисперсій двох незалежних сукупностей використовується критерій Фішера F статистика якого має вигляд:
,
де та – дисперсії вибірок. Обсяги вибірок при цьому можуть бути як одинакові, так і різні. Критерій Фішера використовується при дисперсійному аналізі, тому повернемось до нього на відповідній лекції.
Дата добавления: 2015-11-10; просмотров: 5544;