СПОСОБЫ ПРОВЕРКИ ПРОЦЕДУРЫ ПЕРВИЧНОГО ИЗМЕРЕНИЯ НА НАДЕЖНОСТЬ
Следует иметь в виду, что операции повышения надежности первичного измерения, которые мы будем здесь рассматривать, используются лишь на стадии отработки инструмента измерения в процессе пилотажа. После окончательной проверки надежности построенных шкал и сбора данных на объектах исследования акцент контроля их достоверности переносится с первичного измерения на вторичные, т.е. комбинаторные процедуры, и так последовательно вплоть до обоснования достоверности и интерпретации итоговых выводов.
В целом же достоверность результатов исследования зависит от многих составляющих, начиная с того, насколько обоснована его общая концепция и все компоненты теоретико-методологического раздела программы, а далее - от качества исходных данных, системы их отбора, т.е. соответствия типа выборки (и ее организации) целям исследования, качества анализа данных и, наконец, от глубины интерпретации полученных зависимостей и связей.
В советской литературе нет единообразия в толковании термина "надежность" применительно к социологической информации. Главная причина состоит в том, что одни авторы трактуют надежность слишком расширительно как качество всего исследования и, следовательно, его итогов, а другие, напротив, отождествляют надежность с тем или иным особым ее проявлением (например, с устойчивостью данных, их адекватностью целям исследования и т.д.).
Не останавливаясь здесь на дискуссии терминологического характера [89; 181, с. 21—26], заметим, что в строгом смысле слова понятие надежности измерения правомерно относить именно к инструменту, с помощью которого производится измерение, но не к самим данным, подлежащим измерению. В отношении данных, как и заключительных выводов из исследования, правильнее говорить, что они достоверны (или относительно достоверны) и потому, что фиксированы надежным инструментом.
Возможны различные типологии приемов оценки надежности первичной информации, например с точки зрения внешнего или внутреннего контроля данных, получаемых определенным способом. Мы будем пользоваться обобщающим понятием надежности инструмента измерения (и соответственно надежности данных, фиксируемых этим инструментом), имея в виду три составляющих: (1) обоснованность, (2) устойчивость и (3) правильность информации. Естественно, что и методы контроля на надежность будут рассмотрены в этих трех аспектах.
Обоснованность шкалы заключается в том, что с ее помощью целенаправленно измеряют вполне определенное свойство или признак, не смешивая его с другими.
Предположим, при опросе телезрителей им предлагают указать, каким из перечисленных в прилагаемом списке передачам телевидение уделяет "слишком много", "достаточно" и "слишком мало" времени. Если с помощью этой трехчленной шкалы исследователь намерен фиксировать среднее время, отводимое телепередачам, его измерение будет необоснованным. В действительности он измеряет отношение людей к данным передачам, а не объем времени, отводимого для их трансляции. Обоснованное измерение объема времени на передачи разного типа — документальный анализ "сетки" программ телевидения.
Чтобы повысить обоснованность измерения, используют ряд технических приемов.
(1). Наиболее простой способ — логические рассуждения на основе опыта и здравого смысла.
Обратимся к примеру из обследования, проведенного в 1967 г. Б.М. Фирсовым. Задача: определить среднюю интенсивность просмотра телепередач путем массового опроса телезрителей.
Первый вариант построения шкалы был таков. Вопрос: "Сколько приблизительно часов в день Вы проводите у телевизора?". Шкала для ответа содержала пять интервалов: (не больше 1 часа) - (от 1 до 2 часов) - (от 2 до 3 часов) - (от 3 до 4 часов) - (свыше 4 часов).
Путем логических рассуждений были высказаны следующие сомнения в обоснованности такого метода. Следует указать день просмотра телепередач: будний, субботний или воскресный. Иначе неясно, какой из дней зритель выберет за эталон оценки. Не спасет положения и вопрос, сколько в среднем часов в неделю зритель проводит у телевизора, так как люди не привыкли думать в "средних" величинах.
Значит, надо поставить вопрос так, чтобы: а) выделить дни недели и б) указать понятный для зрителя эталон оценки. Поэтому более удачный вариант построения шкалы для решения той же задачи следующий [263, с. 142].
Первый вопрос: "Сколько дней в неделю Вы, как правило, смотрите телевизионные передачи?":
1) почти все дни недели;
2) 3 или 4 дня в неделю;
3) 1 или 2 дня в неделю;
4) меньше, чем один раз в неделю, т.е. не каждую неделю;
5) в сущности, совсем не смотрю.
Второй вопрос: "Не могли бы Вы приблизительно оценить, сколько в среднем часов Вы проводите у телевизора в тот день, когда смотрите передачи?". Сделайте отметку в каждой строке.
Теперь, пользуясь простыми арифметическими действиями, можно рассчитать "среднепросмотровое" время за неделю и составить шкалу.
Обозначим а число дней в неделю, уделяемых просмотру телепередач. Числовые индикаторы ответов на первый вопрос взяты как средние эмпирически полученных интервалов (в числе дней просмотра), а именно: 6; 3,5; 1,5; 0,7; 0.
Обозначим b как количество часов, затраченных на просмотр телепрограмм в определенные дни (ответы на второй вопрос) также по средним: 4,5; 3,5; 2,5; 1,5; 1.
Обозначив будние дни как d, субботние s, воскресные w, рассчитаем среднепросмотровое время за неделю Т:
ab+ sb + wb
Т= ———————— * а.
Для телезрителя, который в ответе на первый вопрос пометил "3 или 4 дня в неделю", в ответе на второй указал "до 1 часа" в будни и "от 2 до 3 часов" в субботу и воскресенье, среднепросмотровое время исчисляется по формуле:
1 + 2,5 + 2,5
Т = ———————— * 3,5 = 7 (час. в неделю).
Заметим, однако, что логические рассуждения наподобие приведенных выше повышают обоснованность, но не являются прямым доказательством того, что мы меряем искомое свойство.
(2). Тест по "эталонной группе" - более сильный прием проверки инструмента на обоснованность. Смысл проверки - в сопоставлении данных, полученных путем измерения по шкале, с достоверными сведениями об объекте измерения.
Так, шкала на отношение к соблюдению норм права обосновывается опросом осужденных правонарушителей в сравнении с "эталонной" группой законопослушных граждан. Дихотомизация полярных групп по шкале должна совпадать с фактической поляризацией эталонных групп в пределах допустимой ошибки, величина которой зависит от задач исследования.
(3). Поиск независимого критерия как разновидность внешнего контроля надежности для измерения того же самого объекта или свойства.
Если подключить к телевизионному приемнику прибор, регистрирующий время его работы, и сопоставить показания прибора с результатами опроса о частоте и длительности просмотра телепрограмм, можно точно установить обоснованность данных опроса.
Не имея такой возможности, Б.М. Фирсов сопоставлял сведения, полученные по шкале среднепросмотрового времени, с данными по другой шкале, названной " изменение привычек" (табл. 1) [263, с. 107]. Последняя конструировалась по ответам на вопрос: "Придется ли Вам в случае длительного отсутствия телевизора менять свои привычки, способ проведения досуга, жизненный уклад?". Берем два крайних варианта ответов по второй шкале, отбрасывая промежуточные (в процентах к численности представителей каждого типа, т.е. по строке).
Очевидно, что шкала "увлеченности", полученная как вторичная группировка данных среднепросмотрового времени Т, вьгсоко согласуется со шкалой "привычек" и, следовательно, может считаться вполне обоснованной.
(4). Использование метода судей для отбора пунктов шкалы. Сомнения в обоснованности возникают уже на стадии первоначального отбора пунктов шкалы. В каких единицах считать время просмотра телепередач? В днях, часах, в частоте просмотров? Какие понятия выбрать для построения шкалы?
Эти вопросы лучше всего доверить решению компетентных судей. В нашем случае ими являются типичные телезрители, которые будут представлять как бы микромодель основной массы опрашиваемых. В этом смысле "судейство" как способ контроля обоснованности шкалы надо отличать от опроса экспертов — профессиональных специалистов в данной области.
Численность судей зависит от меры однородности или разнородности выборочной совокупности основного обследования. Так, при построении шкал на отношение к досуговым занятиям мнения мужчин и женщин об одних и тех же занятиях будут существенно разными. Рекомендуется отобрать для судейства половину судей из женщин, половину — из мужчин. Не меньшее значение в данном случае будут иметь уровень образования и род занятий. Для компоновки судейской группы используют метод квоты (подробнее см. с. 389).
(5). Один из широко используемых приемов внутреннего контроля обоснованности — совмещение нескольких показателей для регистрации определенного одного свойства или построение индекса. Типы индексов крайне разнообразны. Они широко используются в психологических тестах, в социально-экономических исследованиях и демографии. Суть индексной обоснованности в том, что согласно гипотезе, данному свойству находится множество его проявлений, для каждого из которых формируют отдельную шкалу. Затем измерения по частным шкалам либо суммируются, либо из них образуют логические конструкции, как это было сделано в показателе "логический квадрат" для построения производной шкалы удовлетворенности работой (см. с. 202) .
Вполне справедливо выделяют два существенно разных аспекта обоснованности: теоретический и эмпирический [181, с. 109]. Первый непосредственно связан с содержательными посылками исследования и предполагает установление значимых связей с широким классом ситуаций, предсказываемых теорией, второй требует доказательства надежной регистрации данных в сравнительно узком секторе, в частном проявлении изучаемых объектов. "Если валидность (синоним обоснованности. - В.Я.) эмпирическую через измерение обеспечивают, — заключает В.И. Паниотто, — то валидность теоретическую только проверяют, т.е. уточняют область валидности методики, границы интерпретации получаемых материалов" [181,110].
Устойчивость измерения выражается в однозначности информации, которую мы извлекаем с помощью данной процедуры. Нередко устойчивость ошибочно отождествляют с надежностью процедуры в целом. И хотя последняя зависит не только от устойчивости, но также от обоснованности и правильности операций, подобное смешение не случайно: проверка инструмента на устойчивость - важнейшее условие его надежности.
1) Наиболее распространенный прием контроля на устойчивость — повторное измерение. Один и тот же объект измеряется дважды с двух-трехнедельным временным интервалом и с помощью одинаковой процедуры. Шкала считается устойчивой, если совпадения между первой и второй сериями измерений будут достаточно высокими.
В отличие от проверки на устойчивость измерения физических объектов социолог или психолог сталкивается здесь с особой проблемой — влиянием психологической установки человека, возникающей после первого замера. Люди могут намеренно или непроизвольно подгонять данные второго замера к предыдущим. Или же, напротив, интуитивно сопротивляясь повторному эксперименту, они покажут новые результаты.
Чтобы устранить такой эффект, используют контрольную группу (см. гл. V, эксперимент, с. 203—205). Простейший же способ снять влияние установки первого замера - производить повторный замер спустя достаточное время после первого (например, две недели) и на достаточно большой выборке испытуемых (около 50 человек). Составив таблицу двух замеров для всех обследуемых, мы далее анализируем, какова общая устойчивость данных и от чего зависят отклонения между двумя замерами (+ означает совпадение, - несовпадение данных двух замеров, табл. 2, пример Г.И. Саганенко).
При повторных изменениях используют различные оценки устойчивости данных, одна из которых - это процент полных совпадений ответов на серию вопросов в двух последовательных пробах методики. Соответствующая формула:
п
W = ¾ = р,
N
где в числителе п - количество полностью совпавших пар ответов, а в знаменателе N - общая численность испытуемых, р - процент устойчивости. По этой формуле для примера в табл. 1 получим:
W = — = 90% полной устойчивости исходных данных.
Однако ее можно повысить, заменив некоторые пункты, в частности № 3, по которому обнаружен наибольший разброс (всего лишь 50% совпадений). Основной критерий устойчивости информации - анализ данных по строке. Если анализировать эти итоги по колонкам, найдем, что некоторые субъекты (В и Г особенно) дали большой разброс, а некоторые (А и Б) — почти не дали разброса. Те пункты шкалы, в которых обнаружено несовпадение даже у весьма "устойчивых" субъектов, должны быть переформулированы.
Другим весьма полезным показателем полной устойчивости является мера сдвига, оцененная как стреднеарифметическая ошибка различения градаций шкалы. Этот показатель обозначает, какую долю градации данной шкалы (в среднем) все испытуемые как бы не улавливают, т.е. каковы истинные границы различения градаций.
Например, уточним среднеарифметическую ошибку в различении трехчленной шкалы согласия-несогласия с каким-то суждением (пусть это будет суждение о привлекательности некоторого занятия на досуге). Приведем схему (табл. 3) и расчеты, используя данные таблицы Г.И. Саганенко.
В испытании участвует 28 человек, из которых 17 полностью повторяют свои оценки данного занятия в обеих пробах (сумма по диагонали схемы: 7 + 6 + 4 = 17) а остальные 11 испытуемых дают разные ответы в двух пробах. Для оценки искомой ошибки вычисляем отличия ответов респондентов как сдвиги между II и I пробами, например во II пробе из тех, кто в I пробе ответил "занятие привлекательно", 3 человека сообщили, что оно "не очень привлекательно", т.е. это разность (2 - 1) 3. Теперь суммируем все разности в ответах и получим меру среднеарифметической ошибки различения пунктов градации данной шкалы:
ï 2-1 ï* 3 + ï 1-2 ï * 4 +ï 3-2ï*1 + ï2-3ï*3
½ Δ½ = —————————————————————— = 0,39
Значит, среднеарифметический "сдвиг" в оценке по трехчленной шкале составляет около 40% одного ее деления, т.е. менее половины деления, что в общем можно признать удовлетворительным, хотя и не идеальным. (Ниже, говоря о правильности измерения, мы покажем, как можно было бы уменьшить эту ошибку.)
Рассматривая устойчивость как воспроизводимость результатов измерений, можно использовать и иные показатели ее меры [181, с. 33-34] наряду с обычными расчетами корреляции итогов двух последовательных измерений. Показатели, рекомендуемые Г.И. Саганенко, представляются нам наиболее адекватными и наглядными.
Какая же мера устойчивости удовлетворительна? Это зависит от существа измеряемого свойства, его значимости для целей и задач исследования. В принципе для немногочленной шкалы среднеарифметическая ошибка различения градаций в 40% ее деления невысока, а соответствующая мера устойчивости (100% - 40% = 60%) вполне достаточна, ибо не перекрываются границы между двумя соседними интервалами шкалы. Если неустойчивость составила не 40%, а 60%, т.е. более половины деления шкалы, то ошибка была бы явно недопустима, ибо в среднем испытуемые не различают две соседние градации из трех.
Для многочленных шкал, например из 10 градаций, ошибка в 60% одного деления не слишком велика, так как перекрываются два деления из 10, т.е. не 2/3, а 0,2 общей "длины" шкалы. Если при обработке данных градации укрупнить, объединяя две соседние, то ошибка минимизируется до вполне уверенного уровня устойчивости.
Помимо показателей полной устойчивости шкалы возможны также показатели ее относительной устойчивости. Они полезны при сравнении разных шкал, например для выбора из нескольких вариантов наиболее правильной и точной шкалы (о чем говорится ниже в этом же разделе) или для того, чтобы сопоставить уровни устойчивости измерения разных свойств, каждое из которых фиксируется шкалами разного типа и разной степени дробности.
Но, повторяем, независимо от вида оценки или способа ее расчетов все эти показатели следует соотносить с существом изучаемой проблемы и мерой строгости, предъявляемой к достоверности данных, исходя из характера исследования.
2) Использование нескольких лиц для измерения одного свойства. Случается, что шкала неустойчива потому, что ее пункты произвольно интерпретируются самими исследователями. В особенности это характерно для шкал качественной классификации объектов. В таких (номинальных) шкалах группы объектов классифицируют с помощью описания всех качественных признаков, по которым каждый объект относится к определенному пункту шкалы ¾ классу.
Предположим, что выделено несколько признаков (с соответствующими индикаторами) для отнесения общественной деятельности в высшую категорию по уровню активности. Чтобы выполнить эту операцию однозначно, нужно убедиться, что признаки ясно различимы и при соотнесении видов деятельности с пунктами шкалы не возникает путаницы.
В этом случае объект измеряют одновременно несколько (минимум трое) лаборантов, использующих единую процедуру. Если данные, полученные разными лаборантами, высоко согласуются, шкала устойчивая, если нет — неустойчива, и мы начинаем искать другую, более приемлемую размерную величину. Причина неустойчивости шкалы — в плохом отборе индикаторов.
3) Наконец, третий прием контроля эталона измерения на устойчивость — "расщепление шкалы". Шкала раздваивается на две половины.
Если окажется, что измерения по каждой из них совпадают, их можно рассматривать как равноценные шкалы, суммировать данные и впредь пользоваться одновременно обеими половинами, образующими теперь единую и более надежную шкалу, чем каждая из ее составляющих.
Покажем технику "расщепления" на примере. Возьмем объектом измерения уровень удовлетворенности рабочего своей специальностью. Данные получаем путем анкетного опроса.
Проектируем две шкалы, пункты которых будут отвечать одному из пяти уровней удовлетворенности специальностью (схема 5). Каждому уровню соответствуют два суждения. Нечетные пункты образуют одну, а четные - другую половину испытываемой шкалы.
Далее производим следующие операции: (а) все 10 пунктов четной и нечетной половин перетасовываются в произвольном порядке; (б) опрашиваемым предъявляют набор из 10 суждений с просьбой указать свое согласие или несогласие по каждому из них; (в) после опроса достаточной группы лиц (не менее 50 человек) из числа обследуемой совокупности данные группируются по двум шкалам раздельно: по нечетной половине - (a1), (b1), (с1), (d1),(e1) и по четной шкале - (а2), (Ь2), (с2), (d2), (е2).
Основная операция - (г) сопоставление итогов измерения по двум половинам испытываемой шкалы. Если корреляция между ними будет достаточно высока, эти половины можно рассматривать как части единого инструмента, измеряющего общий континуум свойств. В случае необходимости "выпадающие" суждения следует переформулировать, чтобы получить приемлемую корреляцию.
В таком случае итоговую шкалу образуют все 10 суждений, которые в случайном порядке предъявляются общим списком. В итоговый показатель для данного лица суммируются все баллы суждений, с которыми он выразил согласие.
Обозначив ранжированные пункты баллами от 5 (для a1 и а2 - высшая оценка) до 1 (elи е2 - низшая оценка), предположим, что некий субъект выразил согласие с пунктами a1+ b2, отвергнув все остальные. Его суммарный балл по шкале равен 5 + 4 = 9.
Точность и правильность измерения зависят от (а) степени устойчивости измеряемого объекта или свойства, (б) чувствительности эталона измерения (дробности пунктов шкалы), (в) отсутствия систематических ошибок измерения и, конечно, (г) от устойчивости измерения.
Социальные объекты, подлежащие измерению, обладают различной степенью устойчивости. Скажем, установление состояния удовлетворенности какой-то деятельностью будет заведомо менее точным, чем регистрация частоты поведенческих актов. В первом случае сам объект измерения нестабилен. В дурном настроении человек может выражать недовольство своей работой, а в хорошем расположении духа он будет уверять, что та же работа ему очень нравится. Но вряд ли его настроение отразится на информации о том, как часто он задерживается на работе после окончания смены.
Дробность метрики — чувствительность шкалы — прямо связана с точностью измерения. Шкалы в 10 делений измеряет точнее, чем в 5 или 3 деления. Но дробность пунктов шкалы нельзя увеличивать беспредельно. Надо установить оптимум, удовлетворяющий двум требованиям: максимум градаций шкалы при условии высокой устойчивости результатов измерения. Постепенно повышая дробность эталона измерения и параллельно 1 проверяя шкалу на устойчивость, мы найдем границу, за пределами которой дальнейшее повышение дробности влечет понижение устойчивости. Это и есть оптимум чувствительности шкалы с учетом меры устойчивости измеряемого свойства. Таким образом, достижение устойчивых данных при максимальной дробности метрики повышает точность измерения. Оно будет удовлетворительно точным, если абсолютная ошибка измерения не превышает 0,5 деления шкалы. Вместе с тем, если ошибка вообще отсутствует | Δ | = 0, то не исключено, что шкала обладает заниженной чувствительностью (особенно в случаях, когда мы предполагаем достаточную вариабельность измеряемого свойства).
Но измерение может быть вполне точным и вместе с тем... неправильным, постоянно воспроизводя какую-то систематическую ошибку, как это случается с испорченным термометром, в котором ртутный столбик изначально был фиксирован на неверной исходной отметке и постоянно завышает температуру, скажем на 0,8 градусов.
При квантификации социальных характеристик проблема правильности, т.е. отсутствия уклонений от истинного значения измеряемого свойства, намного сложнее, ибо часто мы в принципе не способны установить, каковы же эти истинные значения измеряемых свойств (скажем, мнений людей по каким-то вопросам). Мы можем лишь, сопоставляя разные способы фиксирования данного свойства, добиваться устранения замеченных систематических ошибок. Каковы же эти систематические ошибки?
Одна из возможных — отсутствие "разброса" информации по шкале вследствие того, что какие-то ее пункты "не работают", т.е. не реагируют на определенное состояние измеряемого свойства. Например, при опросе все ответы концентрируются в позитивном или только в негативном полюсе шкалы. Конечно, это может быть и результатом единодушия оценок, но может быть и результатом того, что сама шкала неудачна, например, содержит какой-то пункт, сформулированный с сильным нормативным давлением на опрашиваемых. Допустим, задан вопрос об употреблении алкоголя и крайне негативный вариант ответа гласит: "Я пью систематически и обычно до бесчувственного состояния". Сомнительно, чтобы даже заведомый алкоголик отметил такой пункт как показатель своего отношения к спиртному. Скорее всего, он выберет суждение менее неприятного свойства, например: "Я выпиваю довольно часто". Крайне отрицательный пункт шкалы здесь "не работает": он отпугивает. Вследствие этого шкала неправильна.
Другой причиной неправильности может быть плохая различительная способность соседних пунктов шкалы высокой дробности. Попробуйте, например, упорядочить свое отношение к 24 занятиям в свободное время так, чтобы уверенно указать не только наилюбимейшее и полностью отвергаемое занятие, но все оставшиеся из предложенного перечня расположить так же аккуратно и уверенно в порядке убывания их привлекательности. Психологически это просто невозможно, так что "срединная" часть этой так называемой ранговой шкалы будет крайне сомнительной, а вся шкала неточной и неправильной. Систематическая ошибка, скорее всего, скажется на том, что социально престижные занятия будут отмечаться как более привлекательные (хотя не исключено, что фактически данные лица ими не интересуются), а социально непрестижные будут попадать в нижние уровни ранжированного ряда.
Во всех подобных случаях опытная проверка шкалы на устойчивость данных обнаружит ошибки. Но часто это показывает уже первая проба.
Правильность и точность измерения можно повысить путем расчета относительной ошибки измерения.
Относительная ошибка позволяет сопоставлять правильность замеров по двум и более шкалам разной чувствительности и таким путем отработать оптимальный инструмент. Напомним, что в отличие от абсолютной относительная ошибка исчисляется не в долях погрешности деления шкалы, а в соизмеримом, определенным образом нормированном показателе.
Приведем пример расчета относительной ошибки измерения. Предположим, что в семичленной шкале оценок фиксируется намерение женщин иметь детей. В обследовании участвуют 100 молодых замужних женщин, которые дали следующие ответы на вопрос: "В какой мере Вы согласны с тем, что было бы желательно иметь ребенка?".
Семичленная шкала на интенсивность мнения имеет вид:
Полюса шкалы интерпретируются, а промежуточные пункты не имеют словесной интерпретации.
При некотором навыке и достаточном исследовательском опыте мы часто интуитивно угадываем, какова должна быть дробность метрики, обеспечивающая устойчивую информацию. Но, приступая к измерению сложных объектов, с которыми ранее не приходилось сталкиваться, социолог должен проделать ряд экспериментов, отрабатывая шкалу на точность и правильность.
Допустим, что по указанной шкале получено следующее распределение ответов 100 опрошенных:
Пункты шкалы: | (7) | (6) | (5) | (4) | (3) | (2) | (1) |
Частоты ответов (100 чел.) |
Оценки 3, 2 и 1 (крайне негативное отношение к суждению) встречаются очень редко, и эту часть шкалы можно признать плохо работающей: в сумме здесь сосредоточено менее 5% всех ответов. Большинство женщин либо явно хотели бы иметь детей, либо не очень в этом уверены, и почти нет таких, кто отвергает идею иметь ребенка. Значит, в нашей шкале работают градации 7, 6, 5 и 4, где "4" фактически наиболее негативная установка. Диапазон работающей части шкалы: 7-4 = 3. Относительная ошибка данной шкалы определяется предложенной Г.И. Саганенко формулой:
Проверив шкалу на устойчивость, как было описано выше, мы, предположим,
получили значение w = 0,75, т.е. 75% полного совпадения ответов в двух последовательных пробах, что определенно недостаточно. При этом
Теперь испробуем на устойчивость пятичленную и трехчленную шкалы, задавая тот же вопрос аналогичной (или той же самой) группе испытуемых в 100 человек. Допустим, что мы получим такие распределения (табл. 4).
Как видно, в пятичленной и трехчленной шкалах работают все градации, так что в негативной зоне оказывается соответственно 25 % и 32 % ответов (сравните с семибалльной шкалой, где в этой зоне менее 50%). Показатели полной устойчивости двух последних шкал, проверенные повторными опросами, допустим, дали соответственно
0,95 и 0,99 (в семибалльной - 0,75).
Но относительные ошибки при условии, что все градации обеих шкал работают, таковы:
округленно 0,24 и 0,49. Получаем, что относительные ошибки семичленной шкалы (0,25) и пятичленной (0,24) практически одинаковы, а трехчленной - существенно выше (0,49).
Какая из трех шкал более надежна? Вопрос решается при сравнении устойчивости шкалы и величины относительной ошибки. Устойчивость данных по пятичленной и трехчленной шкалам сопоставима: 95% и 99%. Иными словами, опрашиваемые хорошо различают градации этих шкал, лучше, чем в семичленной шкале: там устойчивость равна 75%. По этой причине последнюю надо
забраковать. Остается выбор из двух оставшихся. Пятичленная шкала имеет высокую устойчивость и небольшую ошибку, а трехчленная - более высокую устойчивость и приемлемую ошибку (меньше половины градации шкалы). Но в отношении к трем градациям это составит 0,49 / 3 =0,16, а для пятичленной - 0,24 / 5 = 0,05 длины шкалы. Следовательно, пятичленная шкала втрое чувствительнее, а значит, правильнее и точнее.
Суммируем все сказанное о проверке надежности шкал в следующей схеме (схема 6).
Дата добавления: 2015-09-11; просмотров: 916;