СХЕМА 3 5 страница

где r — число строк, а с — число столбцов в табл. 5.

Для нашего примера df = (4—1)(3—1) == 6. По табл. Б прило­жения находим, что c2 = 16,812. Следовательно, нужно отвергнуть гипотезу о том, что нет различий в мнении среди неодинаковых возрастных групп, т. е. можно предположить, что существует зна­чимая статистическая взаимосвязь между тем, к какой возрастной группе принадлежит респондент, и тем мнением, которое он выска­зывает. Однако величина c2 не говорит о силе связи между перемен­ными, а лишь указывает на вероятность существования такой свя­зи. Для определения интенсивности связи необходимо использо­вать соответствующие меры связи.

Для корректного применения методов, основанных на c2, иссле­дователь должен обеспечить выполнение следующих условий. Вы­борку необходимо получить из независимых наблюдений. Данные могут быть измерены на любом уровне, по ни одна из ожидаемых частот не должна быть слишком мала (минимум 5). Если же часто­ты оказываются менее 5, то необходимо либо уменьшить степень дробности группировки признаков, объединив соседние категории, либо обратиться к другому критерию[89].

Таблица 6.Схема вычисления c2

Ячейка (табл. 5) Частота Ожидаемая частота
а б в г д ж з и к л м н 12,9 12,1 16,0 15,2 14,1 18,7 15,2 14,1 18,7 16,7 15,6 20,6 5,1 0,9 6,0 7,8 1,1 6,7 4,2 0,1 4,3 8,7 0,4 8,4 26,01 0,81 36,00 60,84 1,21 44,89 17,64 0,01 18,49 75,69 0,16 70,56 2,016 0,067 2,250 4,003 0,086 2,400 1,160 0,001 0,989 4,532 0,010 3,425
         

 

6. Статистические взаимосвязи и их анализ

Понятие о статистической зависимости. Исходя из известного по­ложения исторического материализма о всеобщей взаимозависимо­сти и взаимообусловленности явлений общественной жизни, социо­лог-марксист не может ограничиться изучением отдельно взятого явления изолированно от других процессов и событий, а должен стремиться по возможности охватить весь комплекс явлений, отно­сящихся к тому или иному социальному процессу и изучить суще­ствующие между ними зависимости.

Различают два вида зависимостей: функциональные (примером которых могут служить законы Ньютона в классической физике) и статистические.

Закономерности массовых общественных явлений складываются под влиянием множества причин, которые действуют одновременно и взаимосвязанно. Изучение такого рода закономерностей в стати­стике и называется задачей о статистической зависимости. В этой задаче полезно различать два аспекта: изучение взаимозависимости между несколькими величинами и изучение зависимости одной или большего числа величин от остальных. В основном первый -аспект связан с теорией корреляций (корреляционный анализ), второй — с теорией регрессии (регрессионный анализ). Основное внимание в этом параграфе уделено изучению взаимозависимостей нескольких признаков, а основные принципы регрессионного анализа рассмотре­ны очень кратко.

В основе регрессионного анализа статистической зависимости ряда признаков лежит представление о форме, направлении и тес­ноте (плотности) взаимосвязи.

В табл. 7 приведено эмпирическое распределение заработной пла­ты рабочих в зависимости от общего стажа работы (условные данные) для выборки в 25 человек,

Таблица 7. Распределение заработной платы и общего стажа работы

Номер респондента Общий стаж работы ( ), лет Заработная плата , руб.
n = 25

 

а на рис. 9 эти численные данные представлены в виде так называемой диаграммы рассеяния, или разброса. Вообще говоря, визуально не всегда можно определить, су­ществует или нет значимая взаимосвязь между рассматриваемыми признаками и насколько она значима, хотя очень часто уже на диаграмме просматривается общая тенденция в, изменении значе­ний признаков и направление связи между изучаемыми признаками.

Уравнение регрессии. Статистическая зависимость одного или большего числа признаков от остальных выражается о помощью уравнений регрессии. Рассмотрим две величины х и y, такие, например, как на рис. 9. Зафиксируем какое-либо значение пере­менной х, тогда у принимает целый ряд значений. Обозначим среднюю величину этих значений у при данном фиксированном х. Уравнение, описывающее зависимость средней величины от х, называется уравнением регрессии у по х:

Аналогичным образом можно дать геометрическую интерпрета­цию регрессионному уравнению[90]

Уравнение регрессии описывает числовое соотношение между величинами, выраженное в виде тенденции к возрастанию (или убыванию) одной переменной величины при возрастании (убыва­нии) другой. Эта тенденция проявляется на основе некоторого чис­ла наблюдений, когда из общей массы выделяются, контролируют­ся, измеряются главные, решающие факторы.

Характер связи взаимодействующих признаков отражается в ее форме. В этом отношении полезно различать линейную и нелиней­ную, регрессии. На рис. 10, 11 приведены графики линейной и кри­волинейной форм линий регрессии и их диаграммы разброса для случая двух переменных величии.

Направление и плотность (теснота),линейной связи между двумя переменными измеряются с помощью коэффициента корреляции.

Меры взаимозависимости для интервального уровня измерения.Наиболее широко известной мерой связи служит коэффициент кор­реляций Пирсона (или, как его иногда называют, коэффициент кор­реляции, равный произведению моментов). Одно из важнейших предположений, на котором покоится использование коэффициента r, состоит в том, что регрессионные уравнения для изучаемых пере­менных имеют линейную форму[91], т. е.

(18)

либо

(19)

где среднее арифметическое для переменной у; среднее арифметическое для переменной х; и некоторые коэффи­циенты.

Поскольку вычисление коэффициента корреляции и коэффициентов регрессии и проводится по схожим формулам, то, вычисляя r, получаем сразу же и приближенные

Стаж работы, лет


Рис. 9 Диаграмма рассеяния для распределения заработной платы и общего стажа работы

Рис. 10. Линии регрессии для рас­пределения заработной платы и об­щего стажа работы

х — стаж работы, лет; у — заработная плата, руб.

Рис. 11. Линия регрессии криволи­нейной формы и диаграмма рассея­ния

 

 

регрессионные модели[92].

Выборочные коэффициенты регрессии и корреляции вычисляют­ся по формулам

; (20)

; (21)

. (22)

Здесь дисперсия признака х; дисперсия признака у. Величина называется ковариацией x и y.

Расчет r для несгруппированных данных. Для вычислительных целей эти выражения в случае несгруппированных данных можно переписать в следующем виде:

Рассчитаем коэффициент корреляций и коэффициенты регрессии для данных табл. 7:

тогда уравнение регрессии имеет вид

Линии регрессии = F(х) изображены на рис. 10. Отсюда вид­но, что между заработной платой и общим стажем работы сущест­вует прямая зависимость: по мере увеличения общего стажа работы на предприятии растет и заработная плата. Величина коэффи­циента корреляции довольно большая и свидетельствует о положи­тельной связи между переменными величинами. Следует отметить, что вопрос о том, какую переменную в данном случае принимать в качестве зависимой величины, а какую — в качестве независимой, исследователь решает на основе качественного анализа и профес­сионального опыта. Коэффициент корреляции по определению яв­ляется симметричным показателем связи: = . Область возмож­ного изменения коэффициента корреляции r лежит в пределах от +1 до —1.

Вычисление r для сгруппированных данных. Для сгруппирован­ных данных примем ширину интервала по каждой переменной за единицу (если по какой-либо переменной имеются неодинаковые размеры интервала, то возьмем из них наименьший). Выберем так­же начало координат для каждой переменной где-нибудь возле среднего значения, оцененного на глаз.

Для условных данных, помещенных в табл. 8, за нулевую точ­ку отсчета выберем значение у, равное 64, а по х — значение 134,5.

Тогда коэффициент корреляции определяется по следующей фор­муле:

где — отклонение от условной средней по признаку х; — отклонение от условной средней по признаку у; частота наблюдений по клеткам таблицы;

 

Таблица 8.Вычисление r по сгруппированным данным

 

x y Промежуточные результаты
-1 +1 +2
+2 +1 -1 -2 146,5 140,5 134,5 128,5 122,5 -41 -32
    -26                    

 

Для вышеприведенного примера порядок вычислений представлен в табл. 9. Для определения вычислим последовательно все произведения частоты в каждой клетке таблицы на ее коор­динаты. Так

 

Подсчитаем и : = -17/185 = -0,09; = 97/185 = 0,52. Определяем и :

В соответствии с формулой вычисляем

Таким образом, величина связи достаточно велика, как, впрочем, и следовало ожидать на основе визуального анализа таблицы.

Статистическая значимость r. После вычисления коэффициента корреляции возникает вопрос, насколько показателен этот коэффи­циент и не обусловлена ли зависимость, которую он фиксирует, случайными отклонениями. Иначе говоря, необходимо проверить гипотезу о том, что полученное значение r значимо отличается от 0.

Если гипотеза будет отвергнута, говорят, что величи­на коэффициента корреляции статистически значима (т. е. эта ве­личина не обусловлена случайностью) при уровне значимости a.

Для случая, когда n<50, применяется критерий вычисляе­мый по формуле

(23)

Распределение t дано в табл. В приложения.

Если n>50, то необходимо использовать Z-критерий

В табл. А приложения приведены значения величины для соот­ветствующих a.

Вычислим величину Z для коэффициента корреляции по табл. 7 (вычисление проделаем лишь для иллюстрации, так как число наблюдений n = 25 и нужно применять критерий t). Величина r (см. табл. 7) равна 0,86. Тогда

Для уровня значимости a = 0,01 = 2,33 (см. табл. А прило­жения).

Поскольку Z> , мы должны констатировать, что коэффици­ент корреляции r = 0,86 значим и лишь в 1% случаев может ока­заться равным нулю. Аналогичный результат дает и проверка по критерию t для a = 0,01 (односторонняя область); = 2,509, t вы­борочное равно 8,08.

Другой часто встречающейся задачей является проверка равен­ства на значимом уровне двух коэффициентов корреляции при заданном уровне a, т. е. различия между r1 и r2 обуслов­лены лишь колебаниями выборочной совокупности.

Критерий для проверки значимости следующий:

, (25)

где значения и находят по табл. Д приложения для и .

Значения определяют по табл. А приложения аналогично выше­приведенному примеру.

Частная и множественная регрессия и корреляция. Ранее нами было показано, как можно по опытным данным найти зависимость одной переменной от другой, а именно как построить уравнение регрессии вида у = а + bх. Если исследователь, изучает влияние не­скольких переменных на результатирующий признак у, то возникает необходимость в умении строить регрессионное урав­нение более общего вида, т. е.

, (26)

где а, , , ……., — постоянные коэффициенты, коэффициенты регрессии.

В связи с уравнением (26) необходимо рассмотреть следующие вопросы: а) как по эмпирическим данным вычислить коэффициенты регрессии а, , , ……., ; б) какую интерпретацию можно припи­сать этим коэффициентам; в) оценить тесноту связи между у и каждым из в отдельности (при элиминировании действия осталь­ных); г) оценить тесноту связи между у и всеми переменными в совокупности.

Рассмотрим этот вопрос на примере построения двухфакторного регрессионного уравнения. Предположим, что изучается зависимость недельного бюджета свободного времени (у) от уровня образования ( ) и возраста ( ) определенной группы трудящихся по данным выборочного обследования. Будем искать эту зависимость в виде линейного уравнения следующего вида:

При расчете коэффициентов уравнения множественной регрессии полезно преобразовать исходные эмпирические данные следующим образом. Пусть в результате обследования n человек получены эм­пирические значения, сведенные в следующую таблицу (в каждом столбце представлены несгруипированные данные):

 

Номер респондента . . . n Среднее по столбцу Среднее квадратическое отклонение y y1 y2 . . . yn sy x1 x11 x12 . . . x1n s1 x2 x21 x22 . . . x2n s2

 

Каждое значение переменной в таблице преобразуем по формулам

Это преобразование называется нормированием переменных. В ре­зультате искомое регрессионное уравнение примет вид

Коэффициенты и находятся по следующим формулам:

(27)

(28)

и называются стандартизированными коэффициентами регрессии. Следовательно, зная коэффициенты корреляции между изучаемыми признаками, можно подсчитать коэффициенты регрессии. Подставим конкретные значения из следующей таблицы[93]:

y x1 x2 Среднее Среднее квадратическое отклонение y     31,6 16,5 x1 0,556   9,0 2,9 x2 -0,131 -0,027 30,2 11,5

Тогда

.

Аналогично , и уравнение регрессии запишется в виде .

Коэффициенты исходного регрессионного уравнения и на­ходятся по формулам

(29)

(30)

Подставляя сюда данные из вышеприведенной таблицы, получим

Как же следует интерпретировать это уравнение? Например, значение показывает, что в среднем недельный бюджет свобод­ного времени при увеличении возраста на один год и при фиксиро­ванном признаке , уменьшается на 0,17 час. Аналогично интер­претируется . (Исходные эмпирические данные можно изобразить на диаграмме рассеяния аналогично тому, как это сделано на рис. 10, но уже в трехмерном пространстве ( , , ))

Коэффициенты , можно в то же время рассматривать и как показатели тесноты связи между переменными у и, например, при постоянстве .

Аналогичную интерпретацию можно применять и к стандарти­зированным коэффициентам регрессии . Однако поскольку вы­числяются исходя из нормированных переменных, они являются безразмерными и позволяют сравнивать тесноту связи между пере­менными, измеряемыми в различных единицах. Например, в выше­приведенном примере измеряется в классах, а в годах и позволяют сравнить, насколько теснее связан с у, чем [94].

Поскольку коэффициенты и измеряют частную односторон­нюю связь, возникает необходимость иметь показатель, характери­зующий связь в обоих направлениях. Таким показателем является частный коэффициент корреляции

Для рассматриваемого примера . Для любых трех переменных , , частный коэффициент корреляции между двумя из них при элиминировании третьей стро­ится следующим образом,

(31)

Аналогично можно определить и частные коэффициенты корре­ляции для большего числа переменных ( ). Однако ввиду громоздкости вычисления они применяются достаточно редко.

Для характеристики степени связи результатирующего признака у с совокупностью независимых переменных служит множествен­ный коэффициент корреляции , который вычисляется по формуле (иногда он выражается в процентах)








Дата добавления: 2015-09-29; просмотров: 616;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.042 сек.