Анализ одномерных распределений

Главная цель эмпирических наблюдений состоит в том, чтобы проверить гипотезы об интересующих нас общественных явлени­ях или закономерностях в поведении людей. Однако перед тем как исследователи начинают проверять свои гипотезы, они обычно бросают предварительный общий взгляд на свои данные и пыта­ются резюмировать или описать их по каждой из переменных. При резюмировании измерений одной переменной используется так называемая описательная статистика. Соответствующие такому анализу таблицы называют линейными или одномерными распре­делениями.

В курсе математической статистики можно познакомиться с не­которыми примерами анализа одномерных данных и описательной статистики. Например, средний оценочный балл группы — это опи­сательная статистика, которая описывает и суммирует экзаменаци­онные ведомости как отражение курса оценок. Если мы вычертим график того, как изменяется со временем коэффициент безработи­цы в данном регионе, то это позволит увидеть, возрастает он или падает — это и будет анализ одномерных данных, где в качестве пред­мета описательной статистики выступает коэффициент безработицы. Таким образом, описательные статистические данные — это не что иное, как способы математического суммирования многочисленных наблюдений в ясной и осмысленной форме.

Обычно для обобщенного описания того, что является наибо­лее характерным для наблюдаемых нами явлений, используют два основных типа анализа: 1) измерение центральной тенденции (т.е. выявление того, какие из значений переменных встречаются в линейных распределениях наиболее часто, а значит, определяют общую или центральную закономерность); 2) измерение разброса или дисперсии (т.е. показывает, насколько плотно или слабо рас­пределяются все зафиксированные значения данной переменной вокруг наиболее общего, среднего или центрального значения). При обработке эмпирических данных и анализе полученных ре­зультатов мы должны, разумеется, принимать во внимание шкалу, с помощью которой производилось измерение той или иной переменной. Способы измерений, т.е. те алгоритмы, по которым производится отображение изучаемых социальных объектов в ту или иную числовую математическую систему, различаются по сте­пени своей сложности и по объему тех математических действий, которые можно производить с полученными в результате наблю­дений значениями переменных. В зависимости от того, насколь­ко широк круг математических операций, допустимых для обра­ботки и получения содержательных выводов, в социологии чаще всего используют шкалы следующих типов (если расположить их в порядке возрастания соответствующего уровня измерений): номинальные, ранговые, интервальные, пропорциональные. Все эти шкалы были разработаны и введены в научный оборот аме­риканским исследователем С. Стивенсом.

Номинальная шкала

С помощью номинальной шкалы мы измеряем такие перемен­ные, которые в принципе не могут количественно отличаться друг от друга. Другое название этого уровня измерений — шкала наи­менований, что довольно точно отражает его сущность: каждое значение здесь представляет собою отдельную категорию, и зна­чение является просто своего рода ярлыком или именем. Значе­ния присваиваются переменной безотносительно к упорядочива­нию или установлению какой-то дистанции между категориями, их невозможно сравнивать между собою по принципу «больше-меньше», «выше-ниже» и т.п. Так, если бы мы захотели рассчи­тать средние значения переменных, измеренных по номинальной шкале, то это было бы пустой тратой времени. В самом деле, мож­но ли рассчитать среднее значение пола? Или рода занятий? В измерениях номинального уровня отсутствуют те свойства, ко­торыми обладают реальные числа, и такие переменные невозмож­но складывать, вычитать, умножать и делить13.

Поэтому данные, полученные по номинальной шкале, обыч­но резюмируются с помощью простого частотного распределения так, как показано в табл. 4.2 и 4.3.

Таблица 4.2

Распределение респондентов по полу

 

Пол Частота Процент
Мужчины 44,3
Женщины 55,0
Всего 100,0

Источник: Аналитический отчет об опросе избирателей округа № 14 г. Нижнего Новгорода, проведенного 12—13 марта 1998 г.

Таблица 4.3

Распределение респондентов по социально-профессиональному статусу

 

Социально-профессиональный статус Частота Процент
Руководители предприятий 1,8
Предприниматели 5,8
ИТР 9,3
Непроизводственная интеллигенция 9,9
Служащие без специального образования 5,4
Квалифицированные рабочие 10,4
Рабочие средней и низкой квалификации 11,4
Неработающие пенсионеры 25,3
Прочие 20,8
Всего 100,0

Источник: Аналитический отчет об опросе 12—13 марта 1998 г.

Мы видим, что в таблицах, помимо указания частоты в абсо­лютных цифрах, приведены данные в процентах (что указывает на удельный вес каждого из значений определяемой переменной). Пропорции и процентные доли в процессе анализа предпочтитель­нее частотных распределений вследствие того, что они облегчают процесс сравнения двух популяций различных размеров. Напри­мер, в табл. 4.4 показаны две гипотетические студенческие попу­ляции различных размеров, но с одинаковыми пропорциями вы­бора дисциплин, которые представляются им предпочтительны­ми для изучения. Вы можете прикрыть полоской бумаги столбцы, содержащие проценты, и убедиться, что непосредственно из час­тотного распределения (без указания процентов) выявить этот факт было бы довольно трудно. Проценты же раскрывают эту информацию немедленно, поэтому нередко, в целях экономии места, особенно в достаточно больших по размерам таблицах, по­казывают только проценты. Частотные распределения в абсолют­ном выражении опускаются, однако при этом желательно приво­дить общее число наблюдений и тем самым давать возможность читателю в случае необходимости вычислить соответствующее частотное распределение.

Таблица 4.4 Распределение предпочтений, отдаваемых различным учебным дисциплинам

 

Учебная дисциплина Экономический факультет Коммерческий факультет
  частота процент частота процент
Маркетинг 25,9 25,9
Социология 22,2 22,2
Английский язык 33,3 33,3
Математика 18,5 18,5
Всего 100,0 100,0

Источник: Гипотетические данные.

В табл. 4.5 представлен пример частотного распределения, про­порций и процентов голосов делегатов Национальной конвенции Демократической партии США, поданных в 1984 г. за выдвиже­ние трех главных кандидатов в президенты от этой партии — Уол­тера Мондейла, Гэри Харта и Джесси Джексона.

Таблица 4.5

Частотное распределение, пропорции и проценты голосов делегатов

Национальной демократической конвенции 1984 г.

(Переменная: число поданных голосов на номинации кандидата в президенты от Демократической партии 1984 г.)

 

Категория (значение переменной) Частота Пропорция Процент
Мондейл 0,568 56,8
Харт 0,311 31,1
Джексон 0,121 12,1
Всего 1,000 100,0

Источник: New York Times, July 20. 1984. A12.

Из этой таблицы, конечно, и так видно, что абсолютное число голосов, поданных за Мондейла (2191), больше, нежели число голосов, поданных за других кандидатов; однако, благодаря использованию пропорций и процентов, сопоставление различных значений переменных становится более рельефным и отчетливым, что, конечно же, облегчает анализ. Преимущество становится осо­бенно бесспорным при необходимости последовательного сравне­ния достаточно длинных рядов распределений.

Для данных номинального уровня измерение центральной тен­денции производится с помощью определения моды. Модой, или модальной категорией, называется то значение переменной, кото­рое встречается среди данных наиболее часто. В табл. 4.2 модаль­ную категорию представляют собою женщины. В табл. 4.3 — это категория неработающих пенсионеров, которых среди респонден­тов оказалось большинство.

Помимо центральной тенденции измеряют и дисперсию данных. Дисперсия характеризует разброс значений переменной. Для дан­ных номинального уровня наибольшая дисперсия проявляется в тех случаях, когда наблюдения распределены поровну между ка­тегориями. Данные табл. 5 весьма дисперсны, поскольку имеется почти одинаковое число мужчин и женщин. Полное отсутствие дисперсии проявляется в тех случаях, когда все наблюдаемые зна­чения переменной совершенно однородны, т.е. попадают в одну и ту же категорию.

При проведении одномерного анализа могут обнаружиться такие характеристики данных, которые представляют собой существенные препятствия для дальнейшего анализа. Представьте, например, что вы намереваетесь изучить взаимосвязь между полом и родом заня­тий и обнаружили, что в выборке опроса оказались одни лишь муж­чины. Поскольку налицо отсутствие дисперсии (т.е. нет вариаций по одной из ключевых переменных — по полу), сравнение провести нельзя. Урок, который необходимо из этого усвоить, состоит в сле­дующем: нет изменения — нет сравнения.А процедура сравнения яв­ляет собою, по сути, ядро анализа. При отсутствии изменений вы можете обнаружить какое-то интересное единообразие, но не смо­жете изучить связей между переменными, т.е. выявить, что же про­исходит с одной из них, когда другая варьирует (изменяется). Самый простой одномерный анализ, проведенный в ходе сбора данных, поможет вам вовремя скорректировать выборку.

Выявляя центральную тенденцию, следует сразу обращать вни­мание на максимальные и минимальные значения изучаемой пе­ременной. Другими словами, когда вы имеете дело с переменной, принимающей целый ряд значений, анализ следует начинать с акцента на самом большом и самом маленьком значении — это сразу дает вам представление о масштабах изменения рассматри­ваемой переменной.

 

Не менее, а нередко и более удобным средством анализа слу­жит графическое отображение рядов распределений. На рис. 4.1 в виде столбчатой диаграммы изображено распределение, пред­ставленное в табл. 4.3. Одного общего взгляда на эту диаграмму достаточно, чтобы оценить соотношение численности представи­телей различных социально-профессиональных групп в выбороч­ном массиве; при взгляде на таблицу это нельзя увидеть столь отчетливо.

На рис. 4.2 мы видим другую форму графического представле­ния данных. Здесь приведена круговая диаграмма реестра голо­сов, поданных на выдвижении кандидатов в президенты демо­кратами в 1984 г. (табл. 4.5).

Рис. 4.1. Социально-профессиональный статус опрошенных

(Столбчатая (иногда говорят — столбиковая) диаграмма представляет собой ряд столбцов; каждый столбец — это процент или частота данного значения пере­менной.

Это одна из разновидностей круговых диаграмм — та, что в англоязычной социологической литературе называется pie -diagram («пирожковая диаграмма») —
объемное изображение, действительно напоминающее своей формой пирог (или торт).

 

Рис. 4.2. Распределение голосов за выдвижение кандидатов в президенты США от Демократической партии на выборах 1984 г. (см. данные табл. 4.5)

 

Ранговая шкала

В принципе та же одномерная статистика, что используется для суммирования данных номинального уровня, может быть приме­нена и для данных рангового уровня. Данные рангового уровня измерений включают в себя категории наблюдения, которые раз­мещены по порядку (от большего значения какого-то признака к меньшему его значению или, наоборот, — от меньшего к боль­шему). Здесь методы описательной статистики более информатив­ны, нежели методы, используемые для измерений номинального уровня. Для измерений порядкового уровня центральную тенден­цию частотного распределения можно оценить с помощью как моды, так и медианы. Тогда как для измерений порядкового уров­ня разброс можно выявить с помощью не только дисперсии, но и среднеквадратического отклонения. Для измерений номинального уровня разброс частотного распределения можно только «ощу­тить», просматривая все категории. Медиана — это категория, к которой принадлежит серединное наблюдение.

Можно посмотреть, как определяется медиана на примере рас­пределений ответов на вопрос о том, какова частота использова­ния различных источников информации о работе городской ад­министрации (табл. 4.6).

Здесь значения переменных — частоты использования того или иного источника — соотнесены с ранговой шкалой, значения ко­торой меняются от категории «часто» (которой присвоен ранг 4) до «не дали ответа» (ранг 0). Учитьшая, что общее число опрошенных (или число наблюдений) равно 426, половина наблюдений соста­вит 213. Это означает, что медиана для такого источника инфор­мации, как «встречи с мэром и работниками администрации», приходится на категорию с рангом 1 (никогда); для четырех пос­ледующих переменных — на категорию с рангом 2 (иногда); для последней переменной — «телевидение» — медиана приходится на категорию 3 (регулярно).

Поэтому иногда такие шкалы называют также порядковыми или ординальны­ми (от англ. ordinal — «порядковый»).

Обратим внимание, что каждый из источников информации — это отдельная
переменная.

 

Таблица 4.6

Источники информации о работе городской администрации

 

Источники информации   Частота/ранг
часто регулярно иногда никогда не дали ответа
Встречи с мэром и работниками администрации
Газеты
Общение с коллегами по работе
Общение с родными, соседями, друзьями
Радио
Телевидение

Источник: Аналитический отчет об опросе жителей г. Нижне­го Новгорода, декабрь 1998 г.

Отметим, что при использовании для измерений порядкового уровня методы описательной статистики более информативны, нежели для измерений номинального уровня. В первом случае центральную тенденцию частотного распределения можно оценить как с помощью моды, так и с помощью медианы, а во втором подходит только мода. Для измерений порядкового уровня разброс частотного распределения можно выявить с помощью дисперсии и среднеквадратического отклонения, тогда как для измерении но­минального уровня разброс можно только «ощутить», просматри­вая все категории. Такова одна из причин, по которым измере­ния высокого уровня часто оказываются предпочтительнее по сравнению с измерениями более низкого уровня.

 

Интервальная шкала

Измерения интервального и пропорционального уровня редко анализируются с помощью прямого указания частот или процент­ных отношений. В отличие от номинальных или ранговых изме­рений значения переменных, измеряемых с помощью интервальных шкал, изменяются непрерывно, они представляют собой численные величины, а не категории. Поэтому количество различных наблюдаемых значений может быть так велико, что частоты и процентные отношения не в состоянии эффективно просуммировать данные. В самом деле, при измерении такой переменной, как возраст, мы можем получить набор значений, ни одно из которых не будет повторять другого (если в нашем выборочном массиве не окажется какого-то количества респондентов, чьи даты рождения совпадают день в день). При измерении доходов также трудно рассчитывать, что суммы доходов различных респондентов или их семей будут совпадать до рублей и копеек. По этой причине зна­чения таких переменных и размещают в интервалах, размеры ко­торых определяются исследовательским замыслом.

Критериями центральной тенденции для пропорционального и интервального уровней измерений выступают мода, медиана и среднее арифметическое. Среднее арифметическое представляет собой сумму значений переменной, разделенную на число значе­ний. Общая формула для ее вычисления алгебраически выглядит следующим образом:


 


где хi — числовое значение i-й позиции, a N— общее число наблю­дений (объем выборки).

Рассмотрим вычисление средней арифметической величины на примере расчета средней посещаемости занятий в студенческой группе по данным проверок деканата. Данные о посещаемости приведены в табл. 4.7.

Сложив числа в правой колонке и разделив их на 10 (число проверок), мы получим, что средняя посещаемость в группе со­ставила х = 18,6.

Понятно, что полученное число —18,6 студента — не может иметь реального физического смысла, оно пригодно лишь для сравнения между собою уровня посещаемости в двух и более группах. Хотя и для этой цели полученные средние величины вначале следует нормировать, разделив их на общую численность студентов каждой группы.

Среднее может оказаться обманчивым показателем центральной тенденции, если в объеме выборочной совокупности среди значе­ний интересующей нас переменной появится какая-то экстремаль­ная величина. Например, среднедушевые ежемесячные доходы се­мей в двух гипотетических общинах (скажем, среди жильцов двух подъездов одного дома, каждый из которых насчитывает по 10 квартир) идентичны, за исключением дохода одной семьи (табл. 4.8). Среднедушевой доход семьи жителей 1-го подъезда — 4230 руб. — более чем вдвое превышает среднедушевой доход во 2-м подъезде — 2050 руб. Именно расчет среднего дохода в каждом из подъездов создает ошибочное впечатление, что люди в 1-м подъезде вдвое бо­гаче, чем люди во 2-м подъезде, тогда как в реальности есть лишь одна семья в 1-м подъезде, которая гораздо богаче любой семьи из обоих подъездов. В этом случае медиана будет лучшим показате­лем центральной тенденции, нежели среднее. Медианный подход даст для обоих подъездов одинаковый результат: 2100 руб. — доволь­но близкий к среднему значению по 2-му подъезду. Если среднее и медиана не сходны по своему значению, можно сделать вывод, что на значение среднего влияют одно или несколько экстремаль­ных значений измеряемой переменной.

Таблица 4.7

 

Номер занятия Число присутствующих   Номер занятия Число присутствующих
 
 
 
 
 

 

Таблица 4.8 Среднедушевые ежемесячные доходы семей в двух подъездах дома (руб.)

 

Номер квартиры 1-й подъезд Номер квартиры 2-й подъезд
25 000
Среднее Среднее

Источник: Гипотетические данные.

Вычисление средней арифметической величины для переменныхx, значения которых измеряются не однозначно определенны­ми числами, а изменяются вдоль непрерывного ряда значений, имеет свои особенности. Здесь расчитывается не среднее арифметическое, а средневзвешенное. Предположим, что нам требуется вычислить средний возраст опрошенных респондентов (табл. 4.9).

Таблица 4.9

Распределение респондентов по возрасту

 

Возраст, годы Частота Процент
18-24 10,1
25-29 12,0
30-39 21,2
40-49 25,2
50-59 16,2
60-70 15,3
Всего 100,0

Источник: Аналитический отчет об опросе жителей г. Нижне­го Новгорода, декабрь 1998 г.

Вначале мы должны определить середину каждого интервала; эto делается путем вычисления простого среднего, т.е. сумма край­них значений делится пополам. Затем необходимо умножить это значение на число респондентов соответствующего возраста, сло­жить полученные произведения и разделить на общий объем вы­борки (см. табл. 4.9а).

Таблица 4.9а

Результат 2-го этапа вычисления средневозрастной величины

 

Возраст, годы Частота Середина интервала Произведение
18-24
25-29
30-39 34,5 3346,5
40-49 44,5 5117,5
50-59 54,5
60-70
Всего 19 498

 

Разделив полученную сумму на 457, мы получим средний воз­раст в 42,6 года. Таким образом, формула для средневзвешенного значения выглядит аналогично соотношению (4.1) с учетом того, что хi здесь относится к середине интервала:

N N

 

 

где хi — числовое значение i-й позиции; nj — число респондентов, наблюдаемых по i- позиции переменной; N— общее число на­блюдений.

Показатели разброса данных интервального или пропорцио­нального уровня включают среднее отклонение, дисперсию и среднеквадратическое отклонение. Среднее отклонение(MD) представ­ляет собой меру разброса, основанную на отклонении каждого из значений от среднего. Пример ее вычисления приведен ниже, по данным из табл. 4.10.

Таблица 4.10

Распределение, отклонение и среднее распределение доходов среди жильцов подъезда № 2

 

Номер квартиры 2-й подъезд х- \х- \
-1050
-1050
-850
-150
-50
Среднее ∑(х- )=0  

Таким образом, уравнение для среднего отклонения выглядит следующим образом:

Где | | — символ абсолютной величины (модуля).

Если мы берем каждую отметку и вычитаем из нее среднее, мы вычисляем ту величину, на которую каждая из отметок (вторая колонка) отличается от среднего (нижняя ячейка второй колон­ки). Сумма этих отклонений всегда равна нулю — важное мате­матическое свойство среднего (проверьте это сами, сложив числа в третьей колонке). Поскольку мы интересуемся только величи­ной отклонения, а не направлением или знаком его, то находим абсолютные значения отклонения (четвертая колонка). Затем мы берем их сумму и делим на число отметок, чтобы найти среднее отклонение отметок от среднего; получаем MD = 630. Чем боль­ше среднее отклонение, тем сильнее разброс отметок вокруг сред­него.

Хотя среднее отклонение и выявляет разброс, чаще для его измерения используются дисперсия и среднеквадратическое от­клонение.

Дисперсия представляет собой сумму квадратов отклонений от среднего, разделенную на число отметок:

 


Среднеквадратическое отклонение представляет собою корень квадратный из дисперсии:


 

 

Чем больше разброс данных вокруг среднего, тем выше значе­ния σ2 и S. Это означает, что если все данные одинаковы, то s2 и S равны нулю.

Таким образом, для вычисления дисперсии и среднеквадратического отклонения надо пройти последовательно семь этапов:

1) вычислить среднее;

2) вычислить разности между средним и каждым из значений;

3) возвести в квадрат разности, вычисленные на этапе 2;

4) умножить квадраты разностей на частоты наблюдений каж­дого из значений;

5) просуммировать квадраты разностей, вычисленные на этапе 4;

6) разделить сумму квадратов, полученную на этапе 5, на N; это равняется дисперсии;

7) извлечь квадратный корень из числа, вычисленного на эта­пе 6; это равняется среднеквадратическому отклонению.

Пример расчета дисперсии и среднеквадратического отклоне­ния. В опросе, проведенном в конце декабря 1998 г., нижегород­цев просили оценить некоторые личностные качества недавно избранного мэра, используя для этого так называемый семанти­ческий дифференциал. Этот метод заключается в следующем:

респонденту предлагается выразить свое отношение к интересу­ющему исследователя качеству по совокупности биполярных шкал (в нашем случае девятибалльных). Одно из предложенных для оценки качеств мэра — доступность — было выражено с помощью такой шкалы:

 

 

доступный неприступный

Результаты в исследовании распределились следующим образом:

Таблица 4.11

Распределение оценок качества «доступность»

 

Оценочный балл Частота
Нет ответа
Всего

 

Отбросив нули (табл. 4.11), т.е. варианты «нет ответа» (после чего N становится равным 368), мы подсчитываем, что среднее значение оценки (по формуле средневзвешенного) составляет:

Обратим внимание: если бы мы не отбросили значение «нет ответа», т.е. приняли бы эту позицию за нуль как математическую величину, то получили бы среднее значение:

т.е. заметно меньшее, нежели рассчитанное нами. Оно более точ­но в математическом смысле, но искажает социологический смысл, поскольку ведь те, кто не дали ответа, вовсе не выставляли оцен­ку «О», они просто не выставили никакой оценки.

Рассчитаем отклонение от среднего и квадрат отклонения от среднего по каждому баллу (табл. 4.12).

 

Xi (оценочный балл) (Xi - ) (Xi - )2
-4,4 135,52
-3,4 127,16
-2,4 230,4
-1,4 90,16
-0,4 17,28
0,6 18,36
1,6 140,8
2,6 162,24
3,6 336,96

 



 

Что дает для анализа данных знание дисперсии? Напомним, что «дисперсия» (dispersion) по-английски означает «разбрасыва­ние, рассеивание»; в данном случае это рассеяние реально полу­ченных эмпирических данных вокруг среднего значения. В зави­симости от того, насколько велика (точнее, мала) дисперсия или среднеквадратичное отклонение, мы можем судить, насколько единодушны были в своих оценках респонденты (при меньшем значении дисперсии), или наоборот — насколько сильно они рас­ходятся в своих мнениях (при большем значении дисперсии). Сравним, к примеру, разброс оценок (по пятибалльной шкале: от 5 — очень важное, до 1 — затрудняюсь ответить), которую, в ходе исследования особенностей сексуального поведения, дали респон­денты степени влияния на их «сексуальное образование» различ­ных источников информации (табл. 4.13):

(Поэтому индексы, основанные на дисперсии, полезно иногда применять при изучении групповой сплоченности).

 

Таблица 4.13

Оценка степени влияния различных источников на информированность о сфере интимных отношений (в средних значениях по 5-балльной шкале)

 

Источник Среднее S
Сексуальный партнер 3,55 1,36
Супруг(а) 3,12 1,58
Друзья 3,07 1,14
Эротические фильмы 3,02 1,09
Популярные издания 2,93 1,20
Научная литература 2,81 1,15
Эротическая литература 2,81 1,14
Родители 2,36 0,92
Педагоги 2,13 0,82
Другие источники 2,38 1,25

Источник: Данные пилотажного опроса, декабрь 1998 г.

Из этой таблицы помимо сведений о том, что максимальное влияние на информированность о наиболее интимных сторонах жизни оказывает сексуальный партнер, а наименьшее — педагоги, мы узнаем также, что с наибольшим единодушием респонденты оценили низкую степень влияния такого источника, как педагоги, о чем говорит минимальное значение среднеквадратического откло­нения, а наибольшее расхождение в оценках вызвал такой источ­ник, как супруг/супруга, — максимальное значение S(что, возмож­но, связано с большими различиями в индивидуальном опыте).

 








Дата добавления: 2016-04-11; просмотров: 4000;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.058 сек.