Тема 9.1. Методы изучения связи между явлениями.
1. Сущность и задачи корреляционно-регрессионного анализа.
2. Коэффициенты связи.
3. Параметрические показатели связи.
1. Сущность и задачи корреляционно-регрессионного анализа
Исследуя природу, общество, экономику, необходимо считаться со взаимосвязью наблюдаемых процессов и явлений. Оценка наиболее существенных из них, а также силы воздействия одних факторов на другие является одной из основных задач статистики.
Формы проявления взаимосвязей разнообразны. Выделяют функциональную (полную) и корреляционную (неполную) связи. При функциональной зависимости величине факторного признака строго соответствует одно или несколько значений функции (формулы из физики, химии, в экономике - прямо пропорциональная зависимость между производительностью труда и увеличением производства продукции.
Корреляционная связь (или неполная, или статистическая) проявляется в среднем, для массовых наблюдений, когда значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной (переменных). Объяснение тому—сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.
Например, в сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что удобрения участвуют в формировании урожая. Но для каждого конкретного поля, участка одно и то же количество внесенных удобрений вызовет разный прирост урожайности, так как во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат. Однако в среднем такая связь наблюдается—увеличение массы внесенных удобрений ведет к росту урожайности.
Слово корреляция ввел в употребление в статистику английский биолог и статистик Френсис Гальтон в конце XIX в. Тогда оно писалось как «corelation» (соответствие), но не просто «связь» (relation), а «как бы связь», т. е. связь, но не в привычной в то время функциональной форме. В науке вообще, а именно в палеонтологии, термин «корреляция» применил еще в конце XYIII в. французский палеонтолог (специалист по ископаемым останкам животных и растений прошлых эпох) Жорж Кювье. Он ввел «закон корреляции» частей и органов животных. «Закон корреляции» помогает восстановить по найденным в раскопках черепу, костям и т. д. облик всего животного и его место в системе: если череп с рогами, то это было травоядное животное, а его конечности имели копыта; если же лапа с когтями - то хищное животное без рогов, но с крупными клыками.
Известен следующий рассказ о Кювье и «законе корреляции». В дни университетского праздника студенты решили подшутить над профессором Кювье. Они вырядили одного из студентов в козлиную шкуру с рогами и копытами и подсадили его в окно спальни Кювье. Ряженый загремел копытами и завопил: «Я тебя съем!». Кювье проснулся, увидел силуэт с рогами и спокойно отвечал: «Если у тебя рога и копыта, то по закону корреляции ты травоядное, и съесть меня не можешь. А за то, что не знаешь закона корреляции, получишь двойку!».
Признак, характеризующий следствие называют результативным, признак, характеризующий причину - факторным.
По направлению связи бывают прямыми (положительными), когда зависимая переменная (результативный признак) растет с увеличением факторного признака, и обратными (отрицательными), когда рост факторного признака вызывает уменьшение функции.
По своей аналитической форме связи бывают линейными и нелинейными.
Если характеризуется связь двух признаков, то ее называют парной. Если изучаются более чем две переменные — множественной.
По силе различаются слабые, средние и тесные связи.
Задачи статистики в области изучения взаимосвязей:
1) измерение параметров уравнения, выражающего статистическую связь;
2) измерение тесноты связи признаков между собой.
Для решения задач применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая - регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов и др.
Последовательность (методика) проведения корреляционно-регрессионного анализа
1. Установление причинно-следственной связи (экономическое обоснование выбора факторов).
2. Оценка тесноты связи между признаками с помощью коэффициентов связи.
3. Установление математической формы связи (выбор вида уравнения регрессии).
4. Решение уравнения связи и определение его параметров.
5. Экономическая интерпретация результатов. При выводах следует обращать внимание на возможность появления ложной корреляции.
Следует заметить, что традиционные методы корреляции и регрессии широко представлены в разного рода статистических пакетах программ для ЭВМ. Исследователю остается только правильно подготовить информацию, выбрать удовлетворяющий требованиям анализа пакет программ и быть готовым к интерпретации полученных результатов.
Условия применения и ограничения корреляционно-регрессионного метода
1. Наличие данных по достаточно большой совокупности. Считают, что число наблюдений должно быть не менее, чем в 5-6, а лучше – в 10 раз больше числа факторов. Чем больше наблюдений, тем лучше: закон больших чисел обеспечивает погашение случайных отклонений от средней величины.
2. Качественная однородность совокупности. При этом закономерность надежно проявляется в средней величине, что позволяет выявить закономерность корреляционной связи.
2. Коэффициенты связи
В корреляционном анализе установление тесноты связи производится параметрическими и непараметрическими показателями.
Параметрические показатели построены с использованием средних величин, дисперсии, коэффициентов регрессии. К ним относятся:
- парный (линейный) коэффициент корреляции;
- корреляционное отношение;
- индекс корреляции;
- коэффициент множественной корреляции;
- бетта-коэффициенты.
Непараметрические показатели рассчитаны на основе определения рангов (ранжирования), в зависимости от вариации каждого из признаков. Такие показатели используются при изучении взаимосвязи качественных, атрибутивных или дискретных признаков. К ним относятся:
- коэффициент корреляции знаков Фехнера;
- коэффициент ассоциации и коэффициент контингенции (только для альтернативных признаков);
- коэффициенты взаимной сопряженности Пирсона и Чупрова (для качественных и количественных признаков, если признак может принимать несколько значений);
- коэффициенты рангов Спирмена и Кендэла;
- коэффициент конкордации, основанный на личном мнении, используется при экспертной оценке и характеризует степень согласия экспертов.
3. Параметрические показатели связи
1. Для нелинейной зависимости.
а) эмпирическое корреляционное отношение (эта) - по результатам группировки:
правило сложения дисперсий:
б) индекс корреляции:
Данные показатели изменяются в интервале (0;1). Их недостаток - они не показывают направление связи, как коэффициент линейной корреляции.
2. Коэффициент линейной (парной) корреляции. Предложен англичанином Карлом Пирсоном:
Интерпретация r: отклонение признака-фактора от его среднего значения на величину своего среднего квадратического отклонения в среднем по совокупности приводит к отклонению признака-результата от своего среднего значения на величину r его среднего квадратического отклонения. Коэффициент корреляции не зависит от принятых единиц измерения, следовательно он сравним для любых признаков.
Коэффициент корреляции еще называют стандартизированным коэффициентом регрессии. Его можно определить по формуле:
Где b - коэффициент регрессии из уравнения регрессии.
Интервалы значений r:
r (-1,1)
Если r>0,7 - связь сильная (тесная),
При 0,5 < r < 0,7 - связь средней тесноты,
При 0,3 < r < 0,5 связь слабая,
При r < 0,3 связь очень слабая, статистически несущественная.
Значение r надо округлять до 2-3 цифр после запятой.
3. Коэффициент детерминации - квадрат коэффициента корреляции:
R2 (0;1)
Коэффициент детерминации показывает долю вариации результативного признака, вызванную вариацией факторного признака. Например, если r2 между урожайностью зерновых и количеством внесенных удобрений = 0,61 (или 61%), это означает, что вариация урожайности на 61 % обусловлена влиянием дозы удобрений.
Контрольные вопросы
1. Что называется причинно-следственными связями?
2. Дать характеристику функциональной связи.
3. Что называется корреляцией?
4. Перечислить количественные критерии тесноты связи.
Дата добавления: 2017-12-05; просмотров: 2004;