Коефіцієнт парної кореляції

Коефіцієнт парної кореляції обчислюється за формулою:

або

Алгоритм розрахунку коефіцієнта парної кореляції:

1) записують вихідні дані в два варіаційні ряди - x і y;

2) обчислюють середнє арифметичне ряду x і y;

3) визначають різницю між членом ряду і середніми величинами;

4) перемножують різниці ряду x і y між собою;

5) знаходять суму перемножуваних різниць (з урахуванням арифметичного знаку);

6) зводять квадрат кожної різниці (відхилення) ряду х і у;

7) визначають суму квадратів відхилень (різниць) для ряду х і окремо;

8) підставляють отримані дані у вихідну формулу і обчислюють коефіцієнт парної кореляції.

Приклад. Визначити кореляційний зв'язок між рядками введення протидифтерійної сироватки та летальністю цього захворювання.

День введення сироватки (х)	Летальність (у)	d _x	d _y	d _x ²	d _y ²	d _x * d _x
1-й	2,0	-2	-5
2-й	3,0	-1	-4
Третя	7,0
4-й	9,0	+1	+2
5-й	14,0	+2	+7
_x x = 3	x _y = 7.0	Sd _x = 0	Sd _y = 0	Sd _x ² = 10	Sd _y ² = 94	Sd _x * d _y = 30

Коефіцієнт кореляції дорівнює +0,98. Зв'язок позитивна, сильна. Отже, між термінами введення сироватки та летальністю від дифтерії є дуже тісна залежність. Число хворих у цьому прикладі дорівнює 900.

Можна визначити достовірність коефіцієнта кореляції, обчисливши його середню помилку для великого числа спостережень (n> 50) за формулою:

, Або при меншій кількості спостережень:

З достатньо великою надійністю можна стверджувати, що залежність невипадкова, якщо чисельне значення r xy перевищує свою середню помилку не менш ніж в 3 рази.

Тобто зв'язок між ознаками вважається статистично значущим, якщо коефіцієнт кореляції перевищує свою помилку в 3 і більше разів.

У тому випадку, коли відношення коефіцієнта кореляції до його середньої помилки менше 3, існування зв'язку між досліджуваними явищами не можна визнати доведеним.

Для малої кількості спостережень (n £ 30) ступінь надійності коефіцієнта кореляції може визначатися за спеціальною таблицею. При цьому число спостережень таблиці К (число ступенів свободи n ) дорівнює кількості спостережень у дослідженні без двох, тобто К = n-2. Як правило, коефіцієнт кореляції розраховується при числі кореляційних пар не менше 5.

У медичних і біологічних дослідженнях зв'язок між ознаками вважається статистично значущим, якщо величина коефіцієнта кореляції більше або дорівнює табличній при Р = 0,05

Показники оцінки коефіцієнта кореляції при малому числі спостережень

K	P
0,1	0,05	0,02	0,01
	0,988	0,997	0,9995	0,99988

Приклад. У районах вивчалася залежність між щепленнями населення і рівнем захворюваності. Отриманий коефіцієнт кореляції за цими двома ознаками дорівнював 0,81. Число спостережень - 8 районів (пар), отже, К дорівнює 6 (8-2). По таблиці знаходимо рядок 6 і порівнюємо отриманий коефіцієнт. При даному числі ступенів свободи (К) коефіцієнт кореляції перевищує табличний для ймовірності Р = 0,05 (графа 3). Звідси з ймовірністю, більшою, ніж 95%, можна стверджувати, що залежність між щепленнями населення і захворюваністю не випадкова, і цей зв'язок сильна, тобто чим більше відсоток щеплених, тим менше рівень захворюваності.

Ранговий коефіцієнт (Спірмена)

Ранговий коефіцієнт кореляції більш придатний в порівнянні зі звичайним коефіцієнтом для характеристики кореляцій у випадках нелінійної зв'язку і для даних, розподіл яких відрізняється від нормального. Крім того, дані для розрахунку рангового коефіцієнта можуть бути представлені в напівкількісних вимірах. Обчислення коефіцієнта проводиться за формулою:

Алгоритм розрахунку коефіцієнта кореляції рангів:

1) замінюють кількісні (або напівкількісні, або якісні) ознаки ряду х і у на ранги, ранжуючи при цьому строго від меншої величини до більшої (або суворо від більшої до меншої на розсуд дослідника);

2) визначають умовні відхилення (а), тобто різницю рангів по кожному рядку;

3) зводять умовні відхилення в квадрат;

4) визначають суму квадратів умовних відхилень;

5) підставляють отримані дані у відому формулу і обчислюють коефіцієнт кореляції.

Приклад. Виміряти кореляцію між смертністю від раку молочної залози і раку матки (матеріали смертності 5 позаєвропейських країн за 1950 - 1952 рр..),

Країна	Смертність від раку молочної залози на 100000 жінок х	Смертність від раку матки на 100000 жінок у	Порядкові номери (ранги) за розмірами смертності від раку	Різниця рангів а	Квадрат різниці рангів а ²
молочної залози	матки
Нова Зеландія	28,6	14,9
Австралія	23,5	13,4
ПАР	21,1	16,3
Чилі	5,8	15,3
Японія	3,3	19,1
						Sа ² = 36

Оскільки обчислення коефіцієнта кореляції рангів зазвичай проводиться на малій кількості числі спостережень (кількість пар в лавах х, у), особливого значення набуває оцінка статистичної значущості (достовірності) цього коефіцієнта. Ранговий коефіцієнт завжди менш точний, ніж парний коефіцієнт кореляції.

Оцінка достовірності коефіцієнта кореляції рангів проводиться різними методами в залежності від числа спостережень. При числі парних спостережень, меншому за число 9 (n £ 9), оцінка значимості проводиться за спеціальною таблицею. При числі спостережень від 10 і більше оцінка значимості може здійснюватися за допомогою критерію t за формулою:

Використовуючи таблицю значень t Стьюдента, при числі ступенів свободи без двох (n²= n-2), порівнюють обчислене значення з табличним. Коефіцієнт визнається значущим за умови, якщо розрахункове t> t_0,05 табличного.

Критичне значення коефіцієнтів кореляції Спірмена - r

n	Рівні значущості	n	Рівні значущості
5%	1%	5%	1%
	1,000			0,425	0,601
	0,900	1,000		0,399	0,564
	0,829	0,843		0,377	0,534
	0,714	0,893		0,359	0,508
	0,643	0,833		0,343	0,485
	0,600	0,783		0,329	0,465
	0,564	0,746		0,317	0,448
	0,506	0,712		0,306	0,435
	0,456	0,645

Коефіцієнт кореляції визнається значущим (достовірним), якщо обчислене r £ r 0,05.

У розглянутому прикладі число спостережень менше 9 (n = 5), внаслідок чого оцінка коефіцієнта проведена за таблицею. При числі спостережень, що дорівнює 5, розраховане значення r =- 0,80 менше критичного і тому не можна з достатньою вірогідністю стверджувати, що між смертністю від раку молочної залози і раку матки існує якась залежність.

Визначення тісноти зв'язку між якісними ознаками

При вивченні залежності якісних ознак використовується коефіцієнт спряженості. Для визначення тісноти зв'язку в разі альтернативної залежності двох ознак , які співставляються (дані, як правило, представлені в таблицях з чотирма полями) коефіцієнти спряженості розраховуються за формулами:

коефіцієнт контингенции Шарльє:

коефіцієнт асоціації Юла (Q):

Алгоритм розрахунку:

1) шифрують через a, b, c, d чотири поля, в яких розташовані вихідні дані: ;

2) обчислюють послідовно твори a * d і b * c;

3) розраховують чисельник формули;

4) визначають знаменник формули;

5) обчислюють коефіцієнт Шарльє або Юла.

Приклад. Визначити залежність між методами лікування (хірургічний і рентгенотерапія, тільки хірургічний) і результатами (одужання чи неодужання).

Метод	Одужання	Неодужання	Усього хворих
I	14 (a)	8 (b)	22 (a + b)
II	7 (c)	9 (d)	16 (c + d)
Усього:	21 (a + c)	17 (b + d)	38 (a + b + c + d) = N

Примітка. Коефіцієнт асоціації дає швидку, але орієнтовну оцінку зв'язку. Досить точну величину коефіцієнт Q визначає для значень r між 1,5 і 0,5.

У тих випадках, коли якісні фактори мають не альтернативне варіювання (чотири поля), а більше число угруповань, коефіцієнт спряженості обчислюється за формулою:

де j ² (фі-квадрат) - коефіцієнт контингенції Пірсона.

Алгоритм розрахунку:

1) встановлюють кореляційну таблицю;

2) частоти (числа спостережень) вписують зверху кожної клітини таблиці;

3) частоти зводять у квадрат і результат записують під ними;

4) квадрат частот ділять на суму числа спостережень (частот) кожної графи таблиці (див. приклад розрахунку: 625:46 = 12,7; 225:75 = 3 і т.д.);

5) результат від ділення проставляють внизу кожної клітини таблиці;

6) визначають суму результату від ділення по кожному рядку і записують у нижній частині підсумкової клітини таблиці (12,7 +3,0 +2,0 = 17,7 і т.д.);

7) зазначені суми ділять на відповідні підсумки рядків (сума від числа спостережень за рядком): 17,7:50 = 0,35; 24,5:60 = 0,4 і т.д.;

8) обчислюють значення j ^2, який є сумою отриманих вище результатів від ділення без одиниці (j ² = 1,28-1 = 0,28);

9) отримане значення j ² підставляють у формулу і обчислюють коефіцієнт спряженості С.

Приклад. Обчислити коефіцієнт спряженості при вимірюванні тісноти зв'язку між житловими умовами і захворюваністю обстежуваних.

Житлові умови	Розподіл обстежуваних за частотою захворювань	Разом
Частота хворіють	Епізодично хворіють	Чи не хворіють
Незадовільні
25 ² = 625
12,7			17,7	0,35
Задовільні

6,6	17,3	0,6	24,5	0,4
Хороші

0,8	7,7	28,6	37,1	0,53
	25 +18 +6 = 49				0,35 +0,4 +0,53 = 1,28

, Звідси .

Величина С дозволяє судити про наявність середнього кореляційного зв'язку між розглянутими факторами.

1 234

Дата добавления: 2015-10-21; просмотров: 1754;