СХЕМА 3 3 страница
СХЕМА 1. Соотношение типов шкал, используемых в социологии. Под названием типа шкал указывается соответствующий класс допустимых преобразований
Сказанное, подытожено в схеме 1, где указаны допустимые преобразования описанных шкал и отражено соотношение их типов.
Признаки, значения которых получены по порядковой или номинальной шкале, обычно называют качественным, а признаки, для получения значений которых использовалась шкала, тип которой ниже типа интервальной шкалы,— количественными/
В соответствии с имеющейся традицией будем говорить, что две шкалы позволяют достичь одного и того же уровня измерения, если эти шкалы являются шкалами одного типа (т. е. если соответствующие .этим шкалам совокупности допустимых преобразований совпадают)[78].
Адекватность математических методов. Одним из основных вопросов, встающих перед исследователем после осуществления измерения, является вопрос о том, какие математические методы онимеет право применять для анализа полученных чисел. Представляется целесообразным считать разрешенными (далее допустимыми, адекватными) только такие методы, результаты применения которых не зависят от того, по какой из возможных шкал получены исходные данные. Необходимым условием такой независимости является инвариантность этих результатов относительно допустимых преобразовании используемых шкал.
Основанием для такого подхода служит то, что именно такие результаты в принципе поддаются содержательной интерпретации,, только они могут отражать реальные закономерности. Отметим, однако, что одной независимости результатов применения какого-либо метода от выбора конкретных используемых шкал отнюдь не достаточно для того, чтобы попытка их содержательной интерпретации увенчалась успехом. Необходимо также содержательное осмысление соответствующих результатов хотя бы для одной из возможных шкал.
Подчеркнем, что понятие допустимости или недопустимости той пли иной статистики (различных мер средней тенденции, мер разброса, коэффициентов связи между признаками и т. д.) является относительным. Все зависит от того, в каком контексте значения этой статистики используются, какие именно соотношения между этими значениями значимы для получения содержательных выводов. Так, сопоставление средних тенденций двух совокупностей может осуществляться с помощью сравнения средних арифметических значений некоторого признака по их величине, с помощью оценки разности (отношения), этих средних и т.д. И возможность использования средних арифметических значений зависит от того, какие именно соотношения между ними подлежат содержательной интерпретации.
Подчеркнем следующее. Если удалось показать, что некоторое числовое соотношение можно содержательно проинтерпретировать то не имеет значения, удастся ли при этом найти эмпирические аналоги отдельных входящих в это соотношение операций над числами. Например, можно делать содержательные выводы па основе сравнения по величине двух средних арифметических значений некоторого признака, никак не интерпретируя при этом суммы шкальных значений, вычисляемые в процессе нахождения средних арифметических.
Как отмечалось выше, для проверки разрешенности любого соотношения необходимо убедиться в том, что это соотношение инвариантно относительно допустимых преобразований Использовавшейся при измерении шкалы (или нескольких шкал, если исходные данные получены по разным шкалам, но мы такой случай рассматривать не будем). Однако на практике такая проверка бывает довольно сложной. Соответствующая проблема в теории измерений называется проблемой адекватности рассматриваемого числового соотношения. Аналогично можно говорить о проблеме адекватности результатов применения какого-либо математического метода.
Естественно, что чем уже круг допустимых преобразований, тем большее количество математических соотношений оставляют эти преобразования без изменения. Другими словами,чем выше тип шкалы, чем выше уровень измерения, тем большее количество математических методов можно применять к шкальным значениям получая при этом интерпретируемые результаты.
Вопрос об адекватности используемых в социологии математических методов, как правило, является весьма сложным. Полученные к настоящему времени результаты касаются лишь небольшого числа методов. Рассмотрим некоторые из них.
Прежде всего остановимся на вопросе о корректности использования различного рода средних и коэффициентов связи между признаками.
Ясно, что любую статистику можно использовать в произвольном контексте только в том случае, если ее значение остается инвариантным относительно применения к исходным данным любого допустимого преобразования соответствующей шкалы. Нетрудно показать, что для номинальной шкалы, удовлетворяющей такому условию, средней будет мода, для порядковой шкалы — медиана и другие квантили. Значение среднего арифметического остается без изменения лишь для абсолютных шкал. Поэтому обращение с ним требует известной осторожности. Однако можно показать[79], что сравнивать по величине средние арифметические значения какого-либо признака можно уже в том случае, когда исходные данные, получены по интервальной шкале (другими словами, результаты такого сравнения не изменяются при применении к исходным данным произвольного положительного линейного преобразования). Относительно коэффициентов связи можно сказать следующее.
Инвариантными относительно допустимых преобразований рассматриваемых шкал являются значения коэффициентов связи, рекомендуемых в § 6 настоящей главы для соответствующего уровня измерения. Так значение коэффициента корреляции r не изменяется при применении к исходным данным произвольного положительного линейного преобразования; значения коэффициентов Кендалла и Спирмена r, инвариантны относительно произвольного монотонно возрастающего преобразования входящих в них величин; значения коэффициентов , Ф, Р, К, Т инвариантны относительно произвольного взаимно однозначного преобразования исходных данных[80].
2. Группировка материала статистических наблюдений*
Измеряя характеристики объекта, исследователь собирает первичный статистический материал. Дальнейшая его задача состоит в систематизации и обобщении результатов измерения для выявления характерных черт, существенных свойств тех или иных типов явлений, обнаружения закономерностей изучаемых процессов и проверки гипотез, лежащих в основе исследования. В основе используемых методов обработки полученных .материалов исследования Лежит предварительное упорядочение первичных данных главным образом при помощи статистической группировки и составления статистических таблиц.
Статистическая группировка. Распределение изучаемой совокупности на однородные группы по существенным для нее признакам {характеристикам} называется статистической группировкой.
Основное назначение группировки состоит, во-первых, в установлении численности каждой отдельно взятой части совокупности, расчлененной в соответствии со значениями определенного признака (пли нескольких признаков), и, во-вторых, в изучении влияния причин и зависимости явлений.
Главным вопросом метода группировки является правильный выбор группировочных признаков. Могут быть получены превосходные данные, но эти сведения пропадут, совсем, если их группировка будет произведена неправильно. Поэтому при выборе признаков для отграничения явлений одного типа от явлений других типов необходимо руководствоваться не субъективными построениями, а содержательным анализом особенностей социальных явлений, задачами исследования, а также видом признаков, с которыми имеет дело исследователь. Основные группировки должны тщательно разрабатываться уже при составлении программы социологического исследования и с необходимостью отражать ключевые гипотезы.
Ряды распределения. Результат группировки единиц наблюдения по какому-либо признаку называется статистическим рядом. Обозначим группировочный признак х. Пусть это будет уровень образования каждого человека в данном списке лиц. Получим неупорядоченный ряд результатов отдельных наблюдений: 10, 5, 7, 8, 10, 10 10 (классы). Если отдельные наблюдения расположить в порядке возрастания указанных выше значений признака, то получим вариационный ряд: 5, 7, 8, 10, 10, 10, 10.
По вариационному ряду количественного признака можно подсчитать, как часто каждое значение этого признака встречается в совокупности. В результате получим частотное распределение для данного признака. Иногда его называют эмпирическим или статистическим распределением.
Для вышеприведенного примера частотное распределение выглядит так:
Отдельные значения признака (xi) | 5 6 7 8 9 10 |
Частота (ni) | 1 0 1 2 0 4 |
Объем совокупности (n всего человек) |
Условимся каждое отдельное значение признака x обозначать x1, x2, x3,.....,xn, (в данном примере это 5, 7, 8, 9и 10 классов).
Абсолютное число, показывающее, сколько раз встречается то или иное значение признака x, называется частотой и обозначается соответственно n1, n2, n3,....., nk.
Относительной частотой называется доля значений признака в общем числе наблюдений обозначается m1, m2, m3,....., mk.
Например, для приведенного частотного ряда частота наибольшего значения признака (10 классов) равна 4, а относительная частота m5 = 4/8 = 0,5. Относительную частоту обычно выражают в процентах (m5=50%).
Сгруппированные данные. Как правило, для последующей статистической обработки или более наглядного представления данных отдельные значения признаков объединяются в группы (интервалы). В этом случае частоты соотносят уже не с каждым отдельным значением признака, как это делалось в предыдущем примере, а с рядом значений, попадающих в определенный интервал.
Например, распределение уровня образования в вышеприведенном примере может быть представлено в виде интервального ряда следующим образом:
Образование (классы) | 5-7 | 9-10 | |
Частота |
Частотное распределение с несгруппированными значениями иногда называют дискретным рядом распределения.
При построении интервальных рядов большое значение имеет выбор тапа, количества и размеров интервалов. Общее требование к этому выбору состоит в том, что группировка должна наиболее полно выявлять существенные свойства рядов распределения.
Существующие формальные правила выбора оптимальной величины интервалов редко оказываются полезными при работе с социологическими данными[81]. Как правило, приходится делать выбор между двумя крайностями: слишком крупные интервалы для дан него объема выборки скрадывают многие нюансы в описании явления, а слишком дробные ведут к статистически незначимым малым частотам внутри интервала.
Интервальные ряды распределения могут строиться с равными и неравными интервалами. Неравные интервалы применяются при - неравномерном распределении частот значений группировочногопризнака — для выделения качественно отличных типов явлений. Например, выбор интервалов при группировке данных распределения совокупности опрошенных по возрасту можно основываться на этапах жизненного цикла. При группировке семей по признаку число книг в семье, опираясь на информацию ранее проведенных исследований о том, что чаще всего встречаются библиотеки с числом книг по 500 и реже — библиотеки, насчитывающие 10 000 книг, целесообразно установить неравные интервалы группировки, например такие: 1-50, 51-100, 101-200, 201-300, 301-500, 501-700, 701-1000, 1001-2000, 2001-5000, 5001-10000.
Если у исследователя нет предварительной информации о характере распределения по тому или иному признаку, то следует задавать равные интервалы. Равные интервалы также наиболее удобны при использовании методов математической статистики. Опыт показывает, что по каждому из признаков не следует брать более 20 группировочных интервалов.
При образовании интервалов необходимо точно обозначить количественные границы группы, избегая таких обозначений границ интервалов, при которых отдельные единицы совокупности могут быть отнесены в две соседние группы. Поэтому, как правило, необходимы дополнительные указания о том, считать ли граничные значения интервалов включительно или исключительно.
Довольно часто социологу приходится сталкиваться с ситуацией, когда необходимо провести перегруппировку материала, задав другие интервалы, но нет возможности при этом обратиться к первоначальным статистическим данным.
При расщеплении интервала на несколько частей приходится вводить априорное предположение о частотном распределении внутри интервала, поскольку истинное распределение неизвестно. Самым простым является предположение о равномерности частотного распределения по отдельным значениям признака. Другие формы распределения требуют достаточно громоздких вычислений[82].
Статистические таблицы. Предусмотренные программой исследования и методиками обработки группировки объектов по каждому из признаков кладутся в основу статистических таблиц, обобщающих исходные данные.
В дальнейшем составляют более сложные таблицы, позволяющие сопоставлять ряды распределений, и, наконец, комбинационные таблицы, в которых три или более признака перекрещиваются, комбинируются. По таким таблицам устанавливаются, измеряются и анализируются связи между признаками исследуемой совокупности объектов.
Построение таблицы подчинено определенным правилам. Основное содержание таблицы должно быть отражено в названии (круг рассматриваемых вопросов, географические границы статистической совокупности, время, единицы измерения}.
Таблицы бывают простыв, групповые и комбинационные.
Простые таблицы представляют собой перечень, список, отдельных единиц совокупности с количественной (или качественной) характеристикой каждой из них в отдельности.
В групповых таблицах содержится группировка единиц совокупности по одному признаку, а в комбинационных — по двум и более признакам.
Примером комбинационной разработки статистической таблицы может служить табл. 1.
Таблица 1. Распределение рабочей молодежи по, возрастам при поступлении на работу в Москве и Московской губернии в 20-е годы*
Возраст, лет | По губернии | Москва | ||
юношей | девушек | юношей | девушек | |
До 12 13-15 16-18 | 7,4 48,1 44,5 | 3,8 43,7 52,5 | 12,9 59,3 28,8 | 4,7 56,5 38,8 |
100% | 100% | 100% | 100% |
Такая таблица представляет собой нечто гораздо большее, чем простей перечень данных, она является способом и вместе с тем результатом определенной организации данных. Хорошо сконструированная таблица позволяет исследователю более четко представить и описать смысл и сущность изучаемого им социального явления. Таким образом, метод группировки и представление материала в виде статистических таблиц уже дают определенные возможности для изучения социологических данных. С другой стороны, он является совершенно необходимым средством для дальнейшего анализа и применения более тонких статистических методов.
3. Графическая интерпретация эмпирических зависимостей
Частотные распределения изображаются также в виде диаграмм и графиков. Главным достоинством графического изображения является его наглядность.
Графическая интерпретация эмпирических зависимостей основана на знании технических правил построения рядов, типов и свойств теоретических распределений. Здесь мы рассмотрим графики вариационных рядов: гистограмму, полигон и кумуляту распределения.
Гистограмма. Гистограмма — это графическое изображений интервального ряда. По оси абсцисс откладывают границы интервалов, на которых строят прямоугольники с высотой, пропорциональной плотностям распределения соответствующих интервалов (пропорциональной числу единиц совокупности, приходящейся па единицу длины интервала). При равных интервалах плотности распределения
Рис. 1. Гистограмма распределения соотношения брачных возрастов разводящихся супругов
пропорциональны частотам, которые и откладываются по оси ординат (рис. 1, табл. 2).
Таблица 2. Распределение брачных возрастов разводящихся супругов.
Показатели | Муж старше жены (на сколько лет) | |||||||
меньше года | 1-2 | 2-3 | 3-4 | 4-6 | 6-8 | 8-10 | 10 и более | |
Число людей | ||||||||
% к общему числу | 7,2 | 14,5 | 13,2 | 22,9 | 16,9 | 8,4 | 1,2 | 15,7 |
Накопленная частота | ||||||||
Накопленная относительная частота, % | 7,2 | 21,7 | 34,9 | 57,8 | 74,7 | 83,1 | 84,3 |
На гистограмме общее число лиц в каждой категории выражается площадью соответствующего прямоугольника, а общая площадь равна численности совокупности (так как гистограмма на рис. 1 строится по относительным частотам, то площадь равна единице (100%)). Поэтому для интервалов 4—6, 6—8, 8—10 в табл. 2, которые в 2 раза больше предыдущих, нужно брать высоты прямоугольников в 2 раза меньшие. При нанесении на графике последнего открытого интервала 10 лет и более условно будем считать верхней его границей 40 лет. Тогда ширина интервала равна 30 годам, а плотность распределения — около 0,5% (15,7 : 30 0,5).
Полигон распределения. Для построения полигона величина признака откладывается на оси абсцисс, а частоты или относительные частоты — на оси ординат. Из точек, соответствующих значениям признака, восстанавливаются перпендикуляры, равные по высоте частотам. Вершины перпендикуляров соединяются прямыми линиями.
Для интервального ряда ординаты, пропорциональные частоте (или относительной частоте) интервала, восстанавливаются перпендикулярно оси абсцисс в точке, соответствующей середине данного интервала.
Следующие данные распределения рабочих в возрасте до 24 лет по тарифным разрядам (высококвалифицированные рабочие сельхозмашиностроения)[83] дают возможность построить полигон распределения (рис. 2):
Разряд | I | II | III | IV | V | VI |
Численность, % к итогу | 8,4 | 22,6 | 31,9 | 24,1 | 6,2 | 0,3 |
Накопленные частоты | 8,4 | 31,0 | 62,3 | 87,0 | 93,2 | 93,5 |
Условно принято крайние ординаты признака соединять с серединами примыкающих интервалов (на рис.. 2 эти замыкающие линии нанесены пунктиром). Однако для распределения, где концентрация событий увеличивается на концах полигона, такое изображение может привести к ложным представлениям о существе явления.
Кумулята. Для графического изображения вариационных рядов используются также кумулятивные кривые. При построении кумуляты, как и гистограммы, на оси абсцисс откладываются границы интервалов (либо значения дискретного признака), а на оси ординат — накопленные частоты {либо относительные частоты), соответствующие верхним границам интервалов. Таким образом, отличие кумуляты от гистограммы в том, что на графике кумуляты столбики, пропорциональные частотам, последовательно накладываются: один на другой, так что высота последнего столбика является суммой высот столбиков гистограммы.
Кумулята округляет индивидуальные значения признака .в пределах интервала и представляет собой возрастающую ломаную линию.
Кумулята позволяет быстро определить процент лиц, находящихся ниже или выше заданной величины признака. Например, по данным табл. 3, процент семейств, в которых муж старше супруги не более, чем на 5 лет, равен 65 (рис. 3, точка А).
|
Рис. 2. Полигон распределения работающих по тарифным разрядам
Рис. 3. Кумулята распределения соотношения брачных возрастов разводящихся супругов
Вид (форма) кривых распределений.Кривые, полученные в результате графического представления эмпирических данных, могут иметь разнообразную форму. Среди них можно выделить относительно небольшое количество простых типов. Некоторые возможные формы распределений приведены на рис. 4. Анализ формы кривых иногда помогает в выявлении внутренней, скрытой структуры исследуемой совокупности. Например, можно предположить, что форма кривой в обусловлена наложением двух кривых: а и б, иначе говоря, предположить, что существует третья скрытая переменная (или группа переменных), детерминирующая расчленение совокупности на две группы.
Существует множество конкретных примеров того, как графический анализ стимулирует дальнейшее развитие исследовательской мысли.
Теоретическое распределение. Сбор эмпирической информации может быть осуществлен двумя путями: исследованием всей совокупности социальных объектов, которые являются предметом изучения в пределах, очерченных программой социологического исследования, и изучением лишь части этих объектов. В первом случае исследование называется сплошным, а множество социальных объектов — генеральной совокупностью, во втором исследование называется выборочным, а выделенная часть объектов — выборкой[84].
Одна из основных задач статистики состоит в том, чтобы по данным выборки оценить параметры генеральной совокупности.
Гистограмма и полигон распределения, построенные на основ эмпирических данных выборки, позволяют выявить лишь приближенную картину реального распределения в генеральной совокупности.
|
|
При увеличении выборочной совокупности и все большем дроблении величины интервалов эмпирическое распределение в вида гистограммы или полигона все более приближается к некоторой кривой, называемой кривой распределения.
Если группировочный признак является непрерывной величиной, то в предельном случае при постепенном уменьшении величин и интервала полигону и гистограмме будет соответствовать некоторая Гладкая кривая (рис. 5). Эта кривая распределения, являющаяся предельным случаем полигона данного эмпирического распределения, называется по установившейся, терминологии кривой плотности распределения. Обозначим .соответствующую функцию f(x).
В терминах теории вероятностей плотность распределения можно трактовать следующим образом: вероятность (p) того, что случайная величина (x) примет значение из достаточно малого интервала (xixi+1), равна произведению длины интервала на высоту прямоугольника (f(xi)), т. е.
Для интервала произвольной длины суммированием этих значений получим, что
Отсюда приходим к определению фундаментального понятия теории вероятностей — функции распределения (F) случайной величины (x), которая по определению есть
Знание функции распределения дает исчерпывающее представление о поведении совокупности в отношении изучаемого признака, поэтому определение типа распределения признаков представляет одну из задач исследования массовых явлений/
4. Средние величины и характеристики рассеяния значений признака
Группировка и построение частотного распределения — лишь первый этап статистического, анализа полученных данных. Следующим шагом обработки является получение некоторых обобщающих характеристик, позволяющих, глубже понять особенности объекта наблюдения. Сюда относится прежде всего среднее значение признака, вокруг которого варьируют остальные его значения, и степень колеблемости рассматриваемого признака. В математической статистике различают несколько видов средних величин среднее арифметическое, медиана, мода и т. д.; существует также несколько показателей колеблемости (мер рассеяния): вариационный размах, среднее квадратическое отклонение, среднее абсолютное отклонение, дисперсия и т.п.[85]
Среднее значение признака. Среднее есть абстрактная типическая характеристика всей совокупности. Оно уничтожает, погашает, сглаживает случайные и неслучайные колебания, влияние индивидуальных особенностей и позволяет представить в одной величина некоторую -общую характеристику реальной совокупности единиц. Основное условие научного использования средних заключается в том, чтобы каждое среднее характеризовало такую совокупность единиц, которая в существенном отношении, и в первую очередь в отношении осредняемых значений признака, была бы качественно однородной. Среди всего многообразия средних практически наиболее часто используемой считается среднее арифметическое.
Среднее арифметическое. Среднее арифметическое есть часть от деления суммы всех значений признака .на их число. Обозначается оно . Формула для вычисления имеет вид
, (1)
где x1, …, xn – значения признака, n – число наблюдений.
По следующим данным вычислим среднее число газет, читаемых ежедневно индивидами в выборке из 10 человек:
Номер опрошенного i | 1 2 3 4 5 6 7 8 9 10 |
Число читаемых газет xi | 3 4 4 5 4 2 4 5 5 3 |
По формуле для находим (газеты). |
Формула (1) для сгруппированных данных преобразуется в следующую:
,
где ni — частота для i-го значения признака.
Если находят среднюю для интервального ряда распределения, то в качестве значения признака для каждого интервала условно принимают его середину.
Процедуру вычисления среднего по сгруппированным данным удобно выполнять по следующей схеме (табл. 3).
Таблица 3.Схема вычисления среднего арифметического
Интервал | Середина интервала (xi) | Частота (относительная) ni | Произведение xini |
Последовательно выписываются все интервалы | x1 x2 . . xл | n1 n2 . . | x1n1 x2n2 . . |
Дата добавления: 2015-09-29; просмотров: 648;