СХЕМА 3 4 страница

Существует ряд упрощенных приемов вычисления средних. На с. 163 как промежуточный этап рассмотрено вычисление среднего методом отсчета от условного нуля.

Пример. Вышеприведенные данные о количестве прочитанных газет сгруппируем следующим образом:

 

Номер опрошенного i 1 10 2 3 5 7 4 8 9  
Число читаемых газет xi 3 3 4 4 4 4 5 5 5  
Частота ni
Отсюда вычислим : (газеты)

 

Медиана. Медианой называется значение признака у той еди­ницы совокупности, которая расположена в середине ряда частот­ного распределения.

Если в ряду четное число членов (2k), то медиана равна средне­му арифметическому из двух серединных значений признака. При нечетном числе членов (2k+1) медианным будет значение призна­ка у (k + 1) объекта.

Предположим, что в выборке из 10 человек респонденты проранжированы по стажу работы на данном предприятии:

 

Ранг опрошенного
Стаж

 

Серединные ранги 5 и 6, поэтому медиана равна

лет

 

В интервальном ряду с различными значениями частот вычисле­ние медианы распадается на два этапа: сначала находят медиан­ный интервал, которому соответствует первая из накопленных ча­стот, превышающая половину всего объема совокупности, а затем находят значение медианы по формуле

, (2)

где x0 — начало (нижняя граница) медианного интервала; d — ве­личина медианного интервала; — сумма частот (относитель­ных частот) интервалов; nH — частота (относительная), накоплен­ная до медианного интервала; nMe — частота (относительная) медианного интервала.

Проведем вычисление по данным табл. 2, где в нижней строке приведены накопленные относительные частоты. Первая из них превышающая половину совокупности (100/2 = 50%), равна 57,9% Следовательно, медиана принадлежит интервалу 3—4 года. Поэтому

Таким образом, для данной выборки медиана, равная 3,7 года, показывает, что 50% семей имеют соотношение возрастов, меньше этой величины, а другие 50% — большее. Медиана, может быть легко определена графически по кумуляте распределения (см. рис. 3).

Медиана может быть применена для дискретных переменных, хотя дробные значения, часто не имеют непосредственной содержа­тельной интерпретации.

По данным распределения рабочих по тарифным разрядам (см. с. 156) вычислим медиану этого распределения, используя приведенную выше формулу[86]. Получим

Узнали, что 50% рабочих имеют разряд, меньший 3,1, и 50% — больший.

Медиана, как уже отмечалось, делит упорядоченный вариацион­ный ряд на две равные но численности группы.

Наряду с медианой можно рассматривать величины, называемые квантилями, которые делят ряд распределения на 4 равные части, на 10 и т. д.

Квантили, которые делят ряд на 4 равные по объему совокупно­сти, называются квартилями. Различают нижний Q1/4 и верхний Q3/4 квартили (рис. 6). Величина Q1/2 является медианой. Вычисле­ние квартилей совершенно аналогично вычислению медианы:

; (3)

, (4)

где x0 — минимальная граница интервала, содержащего нижний (верхний) квартиль; nH частота (относительная частота), накоп­ленная до квартального интервала; nQ частота (относительная частота) квартильного интервала; d — величина квартального ин­тервала.

Процентили делят множество наблюдений на 100 частей с рав­ным числом наблюдений в каждой. Децили делят множество наблю­дений на десять равных частей. Квантили легко вычисляются по распределению накопленных частот (по кумуляте).

Мода. Модой в статистике называется наиболее часто встречаю­щееся значение признака, т. е. значение, с которым наиболее веро­ятно можно встретиться в серии зарегистрированных наблюдений.

В дискретном ряду мода (Мо)—это значение с наибольшей частотой.

В интервальном ряду (с равными интервалами) модальным яв­ляется класс с наибольшим числом наблюдений. Значение моды находится в его пределах и вычисляется по формуле

где x0 нижняя граница модального интервала; d — величина ин­тервала; частота интервала, предшествующего модальному; nMo — частота модального класса; частота интервала, следую­щего за модальным.

В совокупностях, в которых может быть произведена лишь опе­рация классификации объектов по какому-нибудь качественному признаку, вычисление моды является единственным способом ука­зать некий центр тяжести совокупности.

К недостаткам моды следует отнести следующие: невозможность совершать над ней алгебраические действия; зависимость ее величи­ны от интервала группировки, возможность существования в ряду распределения нескольких модальных значений признака (см., на­пример, рис. 4, в).

Сравнение средних. Целесообразность использования того или иного типа средней величины зависит по крайней мере от следую­щих условий: цели усреднения, вида распределения, уровня измере­ния признака, вычислительных соображений. Цель усреднения свя­зана с содержательной трактовкой рассматриваемой задачи. Однако форма распределения может существенно усложнить исследование средних. Если для симметричного распределения (см. рис. 4, а) мода, медиана и среднее арифметическое тождественны, то для асимметричного распределения это не так. На выбор средней мо­жет повлиять и вид распределения. Например, для ряда с откры­тыми конечными интервалами нельзя вычислять среднее арифмети­ческое, но если распределение близко к симметричному, можно под­считать тождественную ему в этом случае, медиану.

Показатели колеблемости (вариации) значений признаков. Для характеристики рядов распределения оказывается недостаточным указание только средней величины данного признака, поскольку два ряда могут иметь, к примеру, одинаковые средние арифметиче­ские, но степень концентрации (или, наоборот, разброса) значений признаков вокруг средней будет совершенно различной. Характери­стикой такого разброса служат показатели колеблемости — разность между- максимальным и минимальным значениями признака в не­которой совокупности (вариационный размах), а также другие по­казатели: среднее абсолютное (линейное) отклонение, среднее квадратическое отклонение и т. п.

Дисперсия. Дисперсией называется величина, равная среднему значению квадрата отклонений отдельных значений признаков от средней арифметической. Обозначается дисперсия s2 и вычисляется по формуле

(6)

Корень квадратный из дисперсии называется средним квадратическим отклонением и обозначается.

Геометрически среднее квадратическое отклонение является по­казателем того, несколько в среднем кривая распределения размы­та относительно ее среднего арифметического. Измеряется в тех же единицах, что и изучаемый признак.

При ручном счете для упрощения вычислений дисперсию (s) рассчитывают по формуле методом отсчета от условного нуля. Для интервального ряда с равными интервалами процедура следующая. Сначала вычисляются центры интервалов. Относительно какого-либо отобранного серединного интервала ряда, например А, вверх и вниз выписывается натуральный ряд чисел i) соответственно со знаком «плюс» и «минус»: 0, +1, +2 и т. д.; -1,

-2 и т. д. (табл. 4).

Далее вычисляются величины . В качестве проме­жуточного результата по формуле (7) получаем среднее арифметическое. Величина дисперсии получается подстановкой промежу­точных величин из табл. 4 в формулу (8).

Среднее арифметическое находится по формуле[87]

(лет) (7)

Тогда дисперсия равна

(8)

(лет)

Приведенные вычисления показывают, что при среднем возрасте 40 лет все остальные члены совокупности имеют возраст, который в среднем отклоняется от 40 лет на 7,8 лет, т. е. примерно на 20%.

Таблица 4 . Пример вычисления дисперсии*

Центр возрастной группы xi Частота или относительная частота ni или mi
27,5 32,5 37,5 А = 42,5 -15 -10 -5 -3 -2 -1 -45 -74 -52
  47,5 52,5 57,5            
d = 5      

 

* Численные данные о распределении кандидатов наук по возрастным группам в отделении экономики, истории, философии и права АН УССР (Организация науки/ Под ред. Г. М. Доброва, М., 1970, с. 148—149).

 

 

Среднее абсолютное отклонение. Эта мера вариации представля­ет собой среднее арифметическое из абсолютных величин откло­нений отдельных значений признака от их среднего арифметического

(9)

где означает, что суммируются значения отклонений без учета знака этих отклонений; — объем совокупности.

.Вместо среднего арифметического в формуле 9 часто берут моду или медиану. Для симметричных распределений мода, медиана и среднее арифметическое совпадают и выбор средней не представля­ет труда. Для асимметричного распределения иногда отдают предпочтение медиане.

Величина среднего квадратического отклонения всегда больше d и для достаточно большой выборочной совокупности с распределением признака, близкого к нормальному, связана с соотношением

Например, для данных табл. 4 вреднее линейное отклонение, под­считанное по формуле 9, равно d = 6,3 года. Тогда

s = 1,25*6,3 = 7,87

что с учетом погрешности вычислений совпадаете найденным ра­нее средним квадратическим отклонением. Таким образом, для пред­варительного анализа можно заменить вычисление менее трудо­емким вычислением.

Коэффициент вариации. Среднее линейное и среднее квадратическое отклонение являются мерой абсолютной колеблемости при­знака и всегда выражаются в тех же единицах измерения, в кото­рых выражен изучаемый признак. Это не позволяет сопоставлять между собой средние отклонения различных признаков (в случае разных единиц измерения) в одной и той же совокупности, а так­же одного и того же признака в разных совокупностях с различ­ными средними. Чтобы иметь такую возможность, средние отклонения часто выражаются через соотнесение в процентах к среднему арифметическому, т.е. в виде относительных величий.

Отношение среднего линейного или среднего квадратического отклонения к среднему арифметическому называется коэффициен­том вариации (V):

(11)

(12)

Очевидно, что тот из рядов имеет большее рассеяние, у которого коэффициент вариации больше.

Рассмотренные выше показатели вариации применимы лишь к количественным признакам, а точнее к признакам, измеренным не ниже чем по интервальной шкале. Применение этих мер для низ­ших уровней, строго говоря, некорректно и требует тщательной ин­терпретации полученных результатов.

Вариации качественных признаков. Если признак имеет k взаимоисключающих градаций, то для вычисления индекса качествен­ной вариации применяется - процедура, поясняемая .следующим примером.

Пусть получено следующее распределение ответов (взаимоис­ключающих) на вопросы А, В и С (колонка 1):

 
A
B
C
 

 

 

Во вторую колонку запишем такие частоты, которые получи­лись бы при равномерном заполнении всех трех вопросов, т. е. 120/3 = 40. Теперь вычислим величину

(13)

Этот показатель называется индексом качественной вариации и указывает на степень неоднородности полученных ответов. Если бы все ответы попали лишь в одну градацию, то J=0, что означа­ло бы полное единство в ответах, хотя, конечно, индекс совершенно не учитывает того, в какую именно градацию попали все эти ответы.

Совершенно аналогично индекс вычисляется при любом числе градаций. Но для альтернативных признаков вариация обычно под­считывается по формуле (14). Она отличается от J на константу, называется дисперсией, выражается в абсолютных числах и обо­значается s2:

(14)

 

Другой мерой вариации признака (независимо от уровня изме­рения) может служить так называемая энтропия — мера неопреде­ленности, вычисляемая по формуле

. (15)

Логарифм в этой формуле может быть взят по любому основанию. Энтропия обладает следующими свойствами:

а) энтропия равна нулю лишь в том случае, если вероятность полу­чения одного из значения xi, признака x равна единице (вероятность остальных значений при этом равна нулю). Такой признак не обла­дает неопределенностью, так как достоверно известно одно един­ственно возможное его значение. Во всех остальных случаях, когда имеется та или иная неопределенность в значениях xi, энтропия является положительной величиной;

б) наибольшей энтропией обладает признак, когда все, значения xi равновероятны. Для признака с k градациями

Отсюда видно, что максимальная энтропия увеличивается с ростом числа градаций в признаке,

5. Нормальное распределение. Статистические гипотезы

Адекватное применение количественных методов, вошедших в практику социологических исследований, в той или иной степени опирается на предположение, что изучаемый признак (или сово­купность признаков) подчиняется определенному статистическому закону распределения. Таким наиболее часто встречающимся рас­пределением является нормальный закон, представление о котором дано здесь в очень кратной форме.

Вторая группа вопросов, рассмотренных в этом разделе, связана с проверкой гипотез. Можно выделить две функции статистических процедур: во-первых, это описание элементов совокупности, во-вто­рых, помощь исследователю в принятии некоторых решений о них. В предыдущих разделах этой главы их рассмотрение было связано с дескриптивной функцией статистики. Здесь же кратко описаны основные понятия и принципы статистического вывода.

Нормальное распределение. Наиболее широко известным теоре­тическим распределением является нормальное, или гауссовское, распределение. Нормальное распределение признака наблюдается в тех случаях, когда на величину его значений действует множество случайных независимых или слабозависимых факторов, каждый из которых играет в общей сумме примерно одинаковую и малую роль (т. е. отсутствуют доминирующие факторы), Функция плотности гауссовского распределения имеет вид

где 2 — дисперсия случайной величины (2 — это теоретическая дисперсия, отличающаяся от s2, вычисляемой по выборочным дан­ным); m — среднее значение (математическое ожидание) (рис. 7).

В практических расчетах часто используется так называемое правило трех сигм, которое заключается том, что лишь 0,26% всех значений нормально распределенного признака лежат вне ин­тервала m±3, т. е. почти все значения признака укладываются в интервалеиз шести сигм (рис. 8).

Статистические гипотезы. Статистической называют гипотезу о виде неизвестного распределения либо о параметрах известных рас­пределений[88]. Так, статистической будет гипотеза о том, что пере­менная в генеральной совокупности распределена по нормальному закону. Проверяемую гипотезу называют нулевой (основной) гипоте­зой и обозначают Но. Наряду с нулевой рассматривается конкури­рующая гипотеза /Л (альтернативная), которая ей противоречит.

Статистический критерий и проверка гипотез. Для проверки ну­левой гипотезы используется специально подобранная случайная величина, точное, либо приближенное распределение которой из­вестно и обычно сведено в таблицы. Эта величина называется ста­тистическим критерием. Обозначим его пока К.

Для критерия К фиксируется так называемая критическая об­ласть, т. е. совокупность значений критерия, при которых нулевую гипотезу отвергают. Точка Kкр называется критической, если она отделяет критическую область от области принятия гипотезы.

Различают правостороннюю, левостороннюю и двустороннюю критические области.

Принятие или отверженце гипотезы производится на основе со­ответствующего статистического- критерия с определенной вероятно­стью. Считают, что пулевая гипотеза справедлива, если вероятность того, что критерий К примет значение, большее Kкр, т. е. попадет в критическую область, равна выбранному значению вероятности a, т. е.

(для правосторонней области);

(для левосторонней области);

(для двусторонней области).

Принятая вероятность a называется уровнем значимости.

Практически принятие или отвержение нулевой гипотезы прово­дится следующим образом: выбирается соответствующий критерий (этот вопрос будет обсуждаться далее); вычисляется наблюдаемое значение критерия KH, исходя из эмпирического распределения; вы­бирается уровень статистической значимости (обычно 0,05 или 0,01).

По таблице распределения критерия К для данного уровня зна­чимости находят критическую точку Kкр. Если KH>Kкр, нулевую гипотезу отвергают, если же KH<Kкр, то ее отвергать нет основа­ния.

Делая такие выводы (т. е. принимая или отвергая гипотезу), можно совершить ошибки двух типов: отвергнуть гипотезу, когда она верна; принять ее, когда она неверна. Поэтому при принятии гипотезы было бы неверным считать, что она тем самым полно­стью доказана. Для большей уверенности необходимо ее проверять другими способами (например, увеличить объем выборки).

Отвергают гипотезу более категорично, чем принимают.

Примеры статистических гипотез: а) нормальное распределение имеет заданное среднее и дисперсию либо имеет заданное среднее (о дисперсии ничего не говорится); б) распределение нормальное либо два неизвестных распределения одинаковы.

В качестве критериев чаще всего используются случайные ве­личины, распределенные нормально (2—критерий), по закону Фи­шера (F — критерий Фишера), по закону Стьюдента (критерий Стьюдента), по закону хи-квадрат (критерий c2) и т. д.

В качестве конкретного примера рассмотрим применение крите­рия хи-квадрат для проверки гипотезы о виде распределения изу­чаемого признака.

Критерий хи-квадрат. Популярность критерия хи-квадрат обус­ловлена главным образом тем, что применение его не требует пред­варительного знания закона распределения изучаемого признака. Кроме того, признак может принимать как непрерывные, так и дискретные значения,, причем измеренные хотя бы на поминальном уровне.

Если закон распределения признака неизвестен, по есть основа­ния предположить, что он имеет определенный вид А, то критерий c2 позволяет проверить гипотезу: исследуемая совокупность распре­делена по закону А. Для проверки такой гипотезы сравниваются эмпирические (наблюдаемые) и теоретические (вычисленные в пред­положении определенного распределения А) частоты. Выпишем эти частоты:

 

Значения признака x1 x2 ..., xk
Эмпирические частоты n1 n2 ..., nk
Теоретические частоты ...,

 

Как правило, эмпирические и теоретические частоты будут раз­личаться. Возможно, что наблюдаемое различие случайно (стати­стически незначимо) и объясняется либо малым числом наблюде­ний, либо способом их группировки, либо иными причинами. Но возможно, что расхождение частот значимо и объясняется тем, что теоретические частоты вычислены исходя из неверной гипотезы о характере распределения значений рассматриваемых признаков, генеральной совокупности. Критерий c2 отвечает на вопрос, случай­но или нет такое расхождение частот. Как любой критерий, c2 не доказывает справедливость гипотезы, а лишь с определенной веро­ятностью а устанавливает ее согласие или несогласие с данными наблюдениями.

Критерий c2 имеет вид

(17)

Критическая точка распределения c2 находится; (см. табл. Б прило­жения) по заданному уровню значимости a, и числу степеней свободы df. Число степеней свободы находят по формуле

,

где k — число интервалов вариационного ряда; r — число парамет­ров предполагаемого распределения, которые оценены по данным выборки (например, для нормального распределения оценивают двапараметра: m и s2).

Рассмотрим пример, когда признак оценивался в терминах очень низкий, средний), очень высокий и был получен сле­дующий ряд распределения для этих трех категорий:

 

Очень низкий Средний Очень высокий  

 

Проверим гипотезу о том, что в генеральной совокупности зна­чения этого признака распределены равномерно.

Теоретическое распределение для этих групп получим,если предположим, что эти категории независимы, т. е. респондент с одинаковой вероятностью может попасть в любую группу. Очевид­но, ожидаемая (теоретическая) частота будет равна 24/3 = 8 че­ловек.

Таким образом, имеем следующие эмпирические и теоретические частоты:

 

 

Проверяется гипотеза, что число респондентов во всех трех катего­риях одинаково, т. е. отличие распределения от равномерного ста­тистически незначимо.

Вычислим величину по формуле (17):

По таблице распределения c2, например, для уровня значимости 0,05 и степени свободы, равном df = 3 – 1 = 2, находим критиче­скую точку . Таким образом, наблюдаемое значение c2 меньше , следовательно, данные наблюдений согласуются с нулевой гипотезой и не дают оснований ее отвергнуть.

Хи-квадрат-критерий применим и для проверки нулевой гипо­тезы об отсутствии связей между признаками в случае, если эмпи­рические данные сгруппированы не по одному, как выше, а по не­скольким признакам. Например, пусть имеется выборка в 190 чело­век, чье мнение относительно какого-то определенного вопроса ис­следовалось (табл. 5). Расчленим эту выборку па три независимых категории по возрасту. Рассмотрим следующие гипотезы: Н0 не существует различия мнений относительно этого вопроса среди раз­личных возрастных групп; Н1 существует различие. Проверим гипотезу для уровня значимости a = 0,05.

Таблица 5.Пример для вычисления c2

Ответ Возраст опрашиваемого Всего
более 40 25-40 менее 25
Категорически не согласен Не согласен Согласен Полностью согласен   Всего (а)18 (г)23 (а)11 (л)8   (б)13 (д)13 (и)14 (м)16   (в)10 (ж)12 (к)23 (н)29    

 

Для нахождения ожидаемой (теоретической) частоты в любой плетке таблицы необходимо просто перемножить соответствующие маргинальные частоты и разделить произведение на итоговую сум­му. Например, ожидаемая частота для клетки (а) равна

Процедуру вычисления представим в табл. 6. Число степеней свободы определяется по формуле








Дата добавления: 2015-09-29; просмотров: 772;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.05 сек.