Надежность измерения социальных характеристик

Описанные выше способы построения шкал не дают полного представления о свойствах полученных оценок. Для этого необхо­димы дополнительные процедуры, результаты которых будем опи­сывать в терминах ошибок измерения. Назовем это проблемой на­дежности измерения. Рассмотрим ее решение на пути выявления правильности измерения, его устойчивости и обоснованности.

Компоненты надежного измерения. При изучении правильности -устанавливается общая приемлемость данного способа измерения. Непосредственно понятие правильности связано с возможностью учета в результате измерения различного рода систематических оши­бок. Систематические ошибки имеют некоторую стабильную приро­ду возникновения: либо они являются постоянными, либо меняются по определенному закону.

Устойчивость характеризует степень совпадения результатов измерения при повторных применениях измерительной процедуры и описывается величиной случайной ошибки. Наиболее сложный вопрос надежности измерения — его обоснованность. Обоснованность связана с доказательством того, что измерено вполне определенное заданное свойство объекта, а не некоторое другое, более или менее на него похожее.

При установлении надежности следует иметь в виду, что в процессе измерения участвуют три составляющие: объект измере­ния, измеряющие средства, с помощью которых производится ото­бражение свойств объекта на числовую систему, и субъект, произ­водящий измерение. Предпосылки надежного измерения кроются в каждой отдельной составляющей.

Прежде всего сам объект в отношении измеряемого свойства может обладать значительной степенью неопределенности. Так, за­частую у индивида нет четкой иерархии жизненных ценностей, а следовательно, нельзя получить и абсолютно точные данные, ха­рактеризующие важность для него тех или иных явлений.

Но может быть и так, что способ получения оценки не обеспе­чивает максимально точных значений измеряемого свойства. Напри­мер, у респондента существует определенная иерархия ценностей, а для получения информации используется номинальная оценка с вариациями ответов от «очень важно» до «совсем неважно». Как правило, из приведенного набора все ценности помечаются ответами «очень важно», «важно», хотя реально у респондента имеется боль­шее число уровней значимости.

Наконец, при наличии высокой точности первых двух составляющих измерения субъект, производящий измерение, допускает грубые ошибки. Например, в процессе клинического интервью, в хо­де которого должна быть выявлена система Ценностей опрашивае­мого, интервьюер не смог довести до респондента суть беседы, не смог добиться доброжелательного отношения к исследованию и пр.

Каждая составляющая процесса измерения может быть источ­ником ошибки, связанной либо с устойчивостью, либо с правильностью, либо с обоснованностью. Однако, как правило, исследова­тель не в состоянии разделить эти ошибки по источникам их про­исхождения и поэтому изучает ошибки устойчивости, правильности и обоснованности всего измерительного комплекса в совокупности. При этом правильность (как отсутствие систематических ошибок): и устойчивость информации —элементарные предпосылки надеж­ности. Наличие существенной ошибки в этом отношении уже сво­дит на нет проверку данных измерения на обоснованность.

В отличие от правильности и устойчивости, которые 'могут быть измерены достаточно строго и выражены в форме числового пока­зателя, критерии обоснованности определяются либо на основе логических рассуждений, либо на основе косвенных показателей. В смежных с социологией науках, например в психологии, проблема обоснованности теста решается путем сопоставления его результатов с результатами внешнего критерия — с известной груп­пой или с данными реального поведения. В социологии такой при­дем, как правило, не удается использовать, поэтому обычно применяется сравнение данных одной методики с данными других: методик или исследований, т. е. обоснованность устанавливается более косвенным путем. При этом, разумеется, не обязательно до­биваться полного соответствия результатов. Достаточным будет уста­новление общих тенденций, что зависит и от соотносительной зна­чимости самих критериев, и от их функции в общем замысле ис­следования.

Правильность измерения — выявление систематических ошибок. Прежде чем приступать к изучению таких компонентов надежно­сти, как устойчивость и обоснованность. Необходимо убедиться в правильности выбранного инструмента измерения (шкалы или, си­стемы шкал).

Возможно, что последующие этапы окажутся излишними, если в самом начале выяснится полная неспособность данного инстру­мента на требуемом уровне дифференцировать изучаемую совокуп­ность, или может оказаться, что систематически не используется какая-то часть шкалы или ее отдельная градация. Прежде всего нужно ликвидировать или уменьшить такого рода недостатки шкалы и только затем использовать ее в исследовании,

Отсутствие разброса, ответов по значениям шкалы. Попадание ответов в один, пункт свидетельствует о полной непригодности из­мерительного инструмента — шкалы. Такая ситуация может воз­никнуть или из-за «нормативного» давления в сторону общепринятого мнения; или из-за того, что градации(значения) шкалы по­имею? отношения к определению данного свойства рассматривае­мых объектов (нерелевантны).

Например, если все опрашиваемые респонденты согласны с ут­верждением «хорошо, когда работа или задание требуют универ­сальных знаний», нет ни одного ответа «не согласен», остается только зафиксировать этот факт, однако подобная шкала не по­может дифференцировать изучаемую совокупность по отношению респондентов» к работе.

Часто примером нерелевантности являются многие исходные шкалы методики семантического дифференциала Осгуда. Так, в ча­стности, при изучении установок инженера в работе измерения респондентов по шкалам «мужской — женский», «горячий — холод­ный» и др. давали оценку только в середине шкалы, в нейтральной точке, Уточнение позволило сделать вывод, что эти шкалы, по мнению респондентов, не, имеют отношения к изучаемым установкам.

Использование части шкалы. Довольно часто - обнаруживается, что практически работает лишь какая-то часть шкалы, какой-то один из его полюсов с прилегающей более или менее обшир­ной зоной.

Так, если респондентам для оценки предлагается шкала, имею­щая положительный и. отрицательный полюса, в частности от +3 до —3, то при оценивании какой-то заведомо положительной ситуа­ции респонденты не используют отрицательные оценки, а диффе­ренцируют свое мнение лишь с помощью положительных. Для того чтобы вычислить значение относительной ошибки измерения, ис­следователь должен знать определенно, какой же метрикой поль­зуется респондент — всеми семью градациями шкалы или только четырьмя положительными. Так, ошибка измерения в 1 балл мало о чем говорит, если мы не знаем, какова действительная вариация мнений.

Пример13. Девятнадцати испытуемым было предложено выска­зать отношение к трем понятиям по семи шкалам к каждому. Шкалы имели по 21 градации с крайними полюсами +10 и —10 и средней точкой 0. В целом получено 399 (19 • 3 • 7) оценок соследующим распределением:

Поскольку значения аi< 0 использовались всего лишь 11 раз: (3 + 3 + 5) из 399, т. е. в 2,8% случаев, то возникает вопрос, дей­ствует ли отрицательная часть этой шкалы. Возможно, что попа­дание в эту часть шкалы — явление чисто, случайное. Проверим предположение.

Будем считать, что если вероятность попадания в конец шкалы превышает 5% при достаточно малом уровне значимости (a == 0,05 или a=0,01), то наблюдаемые попадания ответов являются случайными и соответствующая часть шкалы «не работает». Для этого границы доверительного интервала, построенного по имею­щейся частоте для вероятности попадания в конец шкалы, сравним со значением 5 %. Если значение 5% оказывается выше границ этого интервала, то следует признать, что проверяемая часть шкалы «не работает».

Для расчета границ доверительного интервала воспользуемся формулами14

Здесь т — доля попаданий в проверяемую часть шкалы; га — объем выборочной совокупности данных; Z — коэффициент доверия, соответствующий 2a (о доверительном оценивании см. с. 211).

Для рассматриваемого примера т — 0,0276; п — 399; Za = l,96 для а = 0,05. Подставляя эти значения в формулы, получим pt = 0,016, pz = 0,049. То же самое в процентах: р1 = 1,6%; р2 = 4,9%. Поскольку значение 5% не принадлежит интервалу (1,6%; 4,9%), то считаем, что отрицательная часть шкалы (аi < 0) «не работает», следовательно, 21-балльная оценка функционирует лишь в области от +10 до 0.

Для вопросов, имеющих качественные градации ответов, можно применять подобное требование в отношении каждого пункта шка­лы: каждый из них должен набирать не менее 5% ответов, в про­тивном случае считаем этот пункт шкалы неработающим.

Требование 5%-го уровня наполнения в двух рассмотренных задачах не следует рассматривать как строго обязательное; в за­висимости от задач исследования могут быть выдвинуты большие или меньшие значения этих уровней.

Неравномерное использование отдельных пунктов шкалы. Слу­чается, особенно при использовании упорядоченных шкал, града­ции которых сопровождаются словесными описаниями, что некото­рое значение переменной (признака) систематически выпадает из поля зрения респондентов, хотя соседние градации, характеризующие более низкую и более высокую степень выраженности при­знака, имеют существенное наполнение.

Так, если конфигурация распределения ответов на вопрос с четырьмя упорядоченными градациями такая, как на рис. 14, то, видимо, шкала неудачно сформулирована. Значительное наполнение двух соседних пунктов (1 и о) свиде­тельствует о «захвате» части голосов из плохо, сформулированного пункта 2. Аналогичная картина наблюдается и в том случае, когда респонденту предлагают шкалу, имеющую слишком большую дробность: будучи не в, со­стоянии оперировать всеми градация­ми шкалы, респондент выбирает лишь несколько базовых. Например, зачастую десятибалльную шкалу респонденты расценивают как некоторую модифи­кацию пятибалльной, предполагая, что «десять» соответствует «пяти», «восемь» — «четырем», «пять» — «трем» и т. д. При этом базовые оценки используются значительно чаще, чем другие.

Для выявления указанных аномалий равномерного распределе­ния по шкале можно предложить следующее правило: для достаточ­но большой доверительной вероятности (1 — a >=0,99) и, следова­тельно, в достаточно широких границах наполнение каждого зна­чения не должно существенно отличаться от среднего из соседних наполнений.

Соответствующий статистический критерий таков:

Эта величина имеет хи-квадрат распределение с одной степенью свободы (df = 1).

Здесь i — номер значения признака, который подвергается ана­лизу; пiнаблюдаемая частота дли этого значения;

 

Пример.Рассмотрим случай измерения в десятибалльной шкале ряди ценностей типа «любимая работа», «материальный достаток», «здоровье» и т. д. При 45 испытуемых и 14 предложенных ценно­стях получены 623 оценки, распределение которых выглядит так.

Поскольку предполагается, что шкала должна «работать» равно­мерно, то, возможно, пункты шкалы 9, 7, 5 не удовлетворяют этому требованию.

Для оценки аi = 9 наблюдаемая частота n9 = 67,Г ожидаемая —

 

Подставим данные значения в формулу c2 и получим расчетную величину c2 = 22,93. Поскольку c2 = 22,93>c2 кр = 6,63 (a=0,01), то следует признать различие между наблюдаемой и ожидаемой частотами значимым. Следовательно, частота 67 для оцейки а = 9 «лишком Мала но сравнению с соседними.

Аналогичные расчеты проводятся для пунктов шкалы а = 7 и а=5; частота пункта 7 (n7= 60) не противоречит выдвинутому требованию равномерности; частота оценки 5 (n5 = 81) слишком велика по сравнению с соседними и, таким образом, противоречит | требованию равномерности. 1

Определение грубых ошибок. В процессе измерения иногда возникают грубые ошибки, причиной которых могут быть неправильные записи исходных данных, плохие расчеты, неквалифицированное использование измерительных средств и т. п. Это проявляется в том, что в рядах измерений попадаются данные, резко отличающиеся от совокупности всех остальных значений. Чтобы выяснить, нужно ли эти значения признать грубыми ошибками, устанавли­вают критическую границу так, чтобы вероятность превышения ее крайними значениями была достаточно малой и соответствовала некоторому уровню значимости а. Это правило основано на том, что появление в выборке чрезмерно больших значений хотя и возможно как следствие естественной вариабельности значений, но мало­вероятно.

Если окажется, что какие-то крайние значения совокупности принадлежат ей с очень малой вероятностью, то такие значения, признаются грубыми ошибками и исключаются из дальнейшего рас­смотрения. Выявление грубых ошибок особенно важно проводить для выборок малых, объемов: не будучи исключенными из анализа, они существенно искажают параметры выборки:

Статистический критерий t определения грубых ошибок таков , где t >tкр в качестве t выступает либо t max либо t min)15

 

 

Здесь xmin и xmax являются крайними членами некоторой совокуп­ности значений {х}.

В табл. XII, приводимой В. Ю. Урбахом16, даны критические значения t, соответствующие различным объемам выборки для до­верительных уровней: a= 0,05 и a= 0,01.

Например, при выборке в 50 единиц значение t для уровня a= 0,05 будет 3,16.

Если t расчетное окажется больше t критического, то соответствующее хсчитается маловероятным и отбрасывается как грубая ошибка.

Пример. Представим, что получены распределения по признаку с такими выборочными параметрами: х=0,012; s = 0,160 (при объеме выборки n= 29 респондентов). В этом распределении край­ними значениями оказались такие: xmin= 0,50; xmax =0,250. Су­щественное подозрение вызывает значение, равное —0,500, посколь­ку среднее значение этого признака близко к 0 (0,012), а вариация его значений невелика (s = 0,160).

Так как для n=29 и a=0,05 tкр = 2,94,"то с вероятностью 0,95 можно признать, что значение признака х= — 0,500 слишком мало для данной совокупности, и поэтому является грубой ошибкой а х0,250 не относится к резко выделяющимся значениям.

Итак, дифференцирующая способность шкалы как первая существенная характеристика ее надежности предполагает: обеспече­ние достаточного разбора данных, выявление фактического использования респондентом предложенной протяженности шкалы; анализ отдельных «выпадающих» значений, исключение грубых ошибок. После того как установлена относительная приемлемость используемых шкал в указанных аспектах, следует переходить к выявлению устойчивости измерения по этой шкале.








Дата добавления: 2015-02-19; просмотров: 1353;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.016 сек.