Корреляционный анализ
Для оценки тесноты связи в статистическом анализе используют показатели:
Эмпирического корреляционного отношения (ηэ)
где межгрупповая вариация результативного признака; - общая вариация результативного признака.
Наличие взаимосвязей между результативным и факторным признаком имеет при η≤0,5.
Универсальным показателем тесноты связи является показатель теоретического корреляционного отношения или индекс корреляции (ηm).
где - рассчитанные (теоретические) значения результативного признака.
Показатель теоретического корреляционного отношения может использоваться для оценки тесноты связи не только в парных, но и многофакторных зависимостей.
Для оценки тесноты связи прямолинейной зависимости используется линейный коэффициент корреляции (r).
или
Линейный коэффициент корреляции может изменяться от -1 до +1. Чем ближе значение r по абсолютной величине к единице, тем теснее связь. Если r>0, то связь между факторным и результативным признаками прямо пропорциональная, если r<0, то обратно пропорциональная.
Для предварительной оценки тесноты связи корреляции может использоваться коэффициент корреляции знаков (коэффициент Г. Фехнера).
Для определения коэффициента знаков Г. Фехнера вычисляются средние значения факторного и результативного признаков, затем определяются знаки отклонений от средней всех значений взаимосвязанных признаков. Приняв число совпадений знаков отклонений индивидуальных значений от средней за «С», а число несовпадений за «Н», коэффициент определяется следующим образом:
Коэффициент Г. Фехнера может принимать значения от -1 до +1, если он положительный, то связь между признаками признается прямой, если отрицательный, то обратной.
Рассмотренные выше показатели корреляции приемлемы лишь для условий нормального или близкого к нормальному распределения и только для количественных признаков. Если эти условия отсутствуют и к тому же исследуются атрибутивные признаки, то приходится пользоваться непараметрическими методами корреляционного анализа, в частности корреляцией рангов или ранговой корреляцией. Ранг признака (Ri) указывает то место, которое занимает i-й признак среди других n-признаков в ранжированном ряду распределения.
Если одно и то же значение признака в ранжированном ряду распределения занимает разные порядковые номера, то ранг признака определяется по сопряженному рангу ( ), рассчитанному, как среднее арифметическое порядковых номеров, занимаемых данным признаком.
Для такого рода ранжированных признаков показатели тесноты связи служат коэффициенты корреляции рангов К. Спирмэна (ρ) и М. Кендэла (τ).
где n – число сопоставимых пар; d – разность между рангами коррелирующих признаков ( ).
Этот коэффициент интерпретируется также, как и линейный коэффициент корреляции, имеет те же свойства и пределы значений (от -1 до +1).
где Z – алгебраическая сумма числа высших (P) и низших (Q) рангов по отношению к каждому последующему рангу y, сопоставленному в строгом соответствии с рядом значений х в восходящем или нисходящем порядках, т.е. Z=P-Q.
Расчет данного коэффициента выполняется в следующем порядке:
1. Значения признака х выстраиваются в строчной последовательности возрастания или убывания.
2. Значения у располагаются в порядке, соответствующем значениям х.
3. Для каждого ранга у определяется число следующих за ним значений рангов, превышающих его величину. Суммируя эти числа определяется величина Р, как мера соответствия последовательностей рангов х и у.
4. Для каждого ранга у определяется число следующих за ним значений рангов, меньших его величины. Суммарная величина этих чисел обозначается Q.
Как правило, коэффициент М. Кендэла меньше коэффициента Спирмэна.
Для определения тесноты связи между произвольным числом ранжированных признаков применяется множественный коэффициент ранговой корреляции (коэффициент конкордации) , который вычисляется по формуле:
где m – количество факторов; S – отклонение суммы квадратов рангов от средней квадратов рангов.
Связь между признаками признается значимой, если значение коэффициентов корреляции рангов больше 0,5.
Для оценки тесноты связей между атрибутивными признаками, помимо коэффициентов ранговой корреляции могут применяться специальные коэффициенты.
Для атрибутивных признаков (чаще всего, альтернативных) представленных тетрахорической таблицей (таблицей четырех полей, с частотами a, b, c, d). Как показано в табл. 1 используется коэффициент ассоциации Дж. Юла (Ка) и коэффициент контингенции К. Пирсона (Кк)
Таблица 1
Схема таблицы четырех полей
Варианты значений результативного признака | Варианты значений факторного признака | ||
1 (да) | 2 (нет) | Итого | |
1 (да) | а | b | a+b |
2 (нет) | с | d | c+d |
Всего | а+с | b+d | n |
;
Коэффициент контингенции всегда меньше коэффициента ассоциации и дает более осторожную оценку тесноты связи. Связь можно считать значимой, если величина этих коэффициентов не меньше 0,3 и 0,5 соответственно.
Теснота связей между атрибутивными признаками с большим числом вариантов измеряется с помощью коэффициентов сопряженности К. Пирсона (Кn) или А. Чупрова (Кr).
;
.
где n1 – число вариантов признака по горизонтали; n2 – число вариантов признака по вертикали; φ2 – показатель взаимной сопряженности.
где - частота внутри клетки таблицы; - итоговая частота по строке; - итоговая частота по графе.
Коэффициент сопряженности А. Чупрова считается более точным показателем по сравнению с показателем К. Пирсона, так как учитывает число образованных по признакам групп.
Дата добавления: 2015-04-19; просмотров: 785;