Линейная корреляция
Если пары значений изучают с целью выявления линейной зависимости и при этом и не рассматривают соответственно как зависимую и независимую переменные, то в этом случае говорят о корреляции. Например, рост пар сестер имеет статистическую зависимость. Однако было бы бессмысленным рост одной сестры рассматривать как свободную, а рост другой — как зависимую переменную. Такая же постановка вопроса имеет место, например, при сопоставлении давления воздуха, температуры в различных местах. Если пары значений нанести на диаграмму и искать прямую, которая изображает возможную линейную зависимость, то можно использовать метод наименьших квадратов. Имеют смысл две прямые, так как каждая переменная в равной мере может быть рассмотрена и как зависимая, и как независимая. Если рассматривают функцию , то коэффициент b1 выбирают так, чтобы сумма всех квадратов была бы минимальной. Однако с теми же основаниями величина у может рассматриваться как свободная переменная. Тогда коэффициент b2 функции выбирают так, чтобы минимальной была сумма всех квадратов: = В общем случае обе прямые не совпадают.
Можно показать, что обе величины b1 и b2 тем сильнее стремятся к нулю, и, следовательно, приближаются друг к другу, чем более независимы друг от друга и . При полной статистической независимости прямые перпендикулярны и b1 = b2 = 0.
Если имеет место функциональная зависимость в математическом смысле, то = 1/ и обе прямые регрессии совпадают.
Коэффициенты крутизны b1 и b2 в зависимости от степени (тесноты) статистической связи изменяются между нулем и значением крутизны соответствующей линейной функциональной зависимости. Поэтому значения b1 и b2 в какой-то мере отражают тесноту линейной связи. Однако полностью охарактеризовать ее, они не могут, так как не зафиксирована верхняя граница b. Этого можно достичь посредством нормирования. Нормированный следующим образом коэффициент r называется коэффициентом корреляции:
(4.4)
Коэффициент, корреляции r может принимать значения только между -1и +1. При строгой (функциональной) линейной связке и
мерой линейной зависимости. пары значений ( лежат на прямой линии. При положительном коэффициенте угла наклона прямой линии имеем r= +1, а при отрицательном r= -1. Если и у полностью статистически независимые, то r = 0. Чем ближе пары значений расположены к прямой линии, тем в большей степени модуль r приближается к единице. Необходимо сделать три замечания, чтобы избежать ошибочной интерпретации.
1. если две величины не зависят друг от друга, то они не коррелированы и r = 0; если пары величин ( лежат на прямой линии , то r= 1. Однако обратные утверждения в общем случае не верны. Если r = 0, то это означает, что отсутствует линейная зависимость. Но это не означает, что и у вообще не зависят друг от друга. Если r =1, из этого, не следует, что зависимость между и у линейна, а только то, что, эти величины зависят друг от друга.
2. Если r используется как мера линейной зависимости, то
необходимо учитывать, что r зависит от объема выборки n. Очевидно, что пpи наличии только двух пар величин r всегда
равен единице. Однако, как мы увидим при определении
доверительных границ, при малых n - доверительный интервал
увеличивается и использование r в качестве статистической
характеристики только при двух парах значений недопустимо.
3. Если пары значений лежат вблизи прямой, то из того,
что r принимает значение, близкое ±1, не следует, что эта линейная зависимость отображает также причинно-следственную связь. Например, одновременно увеличиваются и средняя продолжительность жизни, и число жертв автомобильного движения. Возможно, что такая мнимая, лишенная смысла корреляция, происходит от того, что коррелированные явления имеют общую причину, однако так бывает не всегда. Гипотеза наличия причинно-следственной связи должна быть обоснована в каждом отдельном случае, Корреляция показывает лишь то, не противоречат ли полученные результата этой гипотезе.
Коэффициент корреляции r, характеризует корреляцию в выборке. Он может быть использован в качестве оценки математического ожидания , коэффициента корреляции генеральной совокупности. При этом снова возникает задача статистической достоверности этого коэффициента.
Наиболее просто проверить гипотезу = 0. При этом проверяют, является ли отличие коэффициента корреляции r от нуля статистически значимым. Однако эта проверка равнозначна проверке статистической значимости отличия от нуля коэффициентов b1 прямой регрессии у — = b1 .Поэтому она может быть осуществлена в соответствии с процедурой, изложенной выше.
Доверительный интервал для коэффициента корреляции определяют следующим образом:
1. Выбирают доверительную вероятность Р (например, 95, 99 % ).
2. По результатам, представленным на рисунке статистической надежности определяют величину вычисляют и определяют с.
3. Определяют коэффициент корреляции
4. По результатам исследований определяют зависимость
5. Еще раз, используя результаты, представленные на графике , определяют величины:
6. Доверительный интервал для будет равен .
Дата добавления: 2015-12-11; просмотров: 726;