Актуальность технического обслуживания 19 страница
Индивидуальные различия в склонности давать социально желательные ответы могут быть измерены с помощью шкалы Крау-на—Марлоу (Crowne, Marlowe, 1964), следовательно, группе индивидуумов можно дать этот опросник наряду с разрабатываемым опросником, в контексте, в котором тот будет использоваться. Если на любое утверждение опросника сильно влияет социальная желательность, ответы на эти вопросы будут существенно коррелировать с оценками индивидуумов по шкале Крауна—Марлоу, Если социальная желательность, наоборот, мало влияет на утверждения, корреляции будут незначительны. Это позволяет выделить те утверждения, которые наиболее сильно подвержены социальной желательности, и рассмотреть затем вопрос об их устранении или
перефразировании в процессе конструирования теста. Способ, который люди используют при заполнении шкал Ли-керта, также может зависеть от некоторых других особенностей их личности. Типичная шкала Ликерта может предложить тестируемому обвести кружком одну из цифр от 1 до 5, когда ранг 1 означает, что испытуемый «полностью не согласен» с утверждением, а ранг 5 подразумевает, что он «полностью согласен» с ним. Несколько лет назад Пол Клайн, Джоун Мей и я заинтересовались разработкой «объективного теста» для измерения авторитарных аттитюдрв. Мы предполагали, что авторитарные типы склонны рассматривать мир в категориях «черное—белое», лишенных любых сомнений и двойственности. По этой причине мы высказали предположение, что при предъявлении 5-балльной ранговой шкалы они, в отличие от контрольных групп, будут обводить в кружок большей частью крайние числа 1 и 5 и значительно реже промежу-
точные позиции. Именно это мы и получили (Cooper et al,, 1986). Таким образом, здесь представлена другая личностная особенность, влияющая на способ, используемый людьми при заполнении шкал Ликерта.
Задание для самопроверки 17.4
Назовите какие-либо переменные, которые могут влиять на характер выполнения личностных тестов.
Факторы, влияющие
на выполнение тестов способностей
Без лишних слов ясно, что условия предъявления теста, по-видимому, оказывают большое влияние на успешность его выполнения, особенно применительно к тестам способностей. Тестирование больших групп нервничающих людей в переполненной душной комнате с высоким уровнем фонового шума — это достаточно очевидный рецепт для неудачного выполнения теста, так же как и любое отклонение от инструкции теста, применения образцов или временных лимитов. Однако в этом разделе мы рассмотрим некоторые другие психологические характеристики индивидуумов, которые также могут влиять на способ обращения с тестами способностей.
Мотивация личности при работе с любым тестом, вероятно, будет оказывать определенное влияние на успешность его выполнения. Поощрение даже очень маленьких детей к успешному выполнению может привести к значительному повышению их опенок по тестам способностей сравнительно с контрольными группами (Brown, Walberg, 1993). Предполагается, что культурные факторы также оказывают большое влияние на успешность выполнения тестов. Если ребенок убежден, что он вряд ли сможет хорошо выполнить тест, то, возможно, он действительно будет плохо выполнять его в силу подверженности влиянию стереотипов (например, Steele, Aronson, 1995). Предполагается также, что важна социальная атмосфера ситуации тестирования и что возраст, пол, уровень тревоги и уровень энтузиазма индивидуума могут влиять на получаемые оценки. Однако, как утверждает Кронбах (Cronbach, 1994), имеется удивительно мало доказательств любых устойчивых различий. Совершенно не обязательно, что чер-
нокожие дети будут выполнять тесты способностей лучше, если психолог.будет черным, а не белым (Jensen, 1980; Sattler, Gwyn-ne, 1987).
Имеется также по-настоящему обширный массив литературных данных по психологии тревоги, возникающей во время тестирования и ее воздействию на успешность. Существует международное общество по изучению этого предмета и даже имеются тесты тревожности, предназначенные для специфических предметных областей, таких, как математика или спорт, так же как и общий тест тревоги (Spielberger, 1980), хотя (с моей точки зрения) мало убедительных доказательств, что тестовая тревога реально отличается от «обычного» состояния тревоги или от черты тревожности. Высокие уровни тревоги оказываются действительно связаны с пониженной успешностью выполнения многих тестов способностей или достижений (например, Schwarzer et al, 1989), однако утверждение на этой основе причинной связи может оказаться опасным. Возможно, что сильная тревога возникает как результат вполне правильной самооценки того, что человек окажется не в состоянии выполнить тест хорошо.
Эффекты практики и тренинга также могут улучшать успешность выполнения тестов при некоторых обстоятельствах, но следует сделать разграничение между теми вмешательствами, которые предназначены для изменения уровня черты, и теми, которые специфичны для одного конкретного измерительного инструмента, например, обучение распределению времени и стратегиям угадывания для теста школьных способностей (тест используется при поступлении в колледж в США). Вмешательства, предназначенные улучшить уровень черт, не ставят больших этических проблем, в то же время попытки улучшить успешность выполнения одного определенного теста, без сомнения, несправедливы по отношению к кандидатам, которым не хватает скрытого знания о том, как тест работает, что делает для них невозможным выбор соответствующей стратегии, или которым не хватает денег, чтобы нанять репетитора. Польза от этого не слишком велика. В случае теста школьных способностей совершенно не ясно, не лучше ли будет время и энергию, отданную изучению «тонкостей теста», потратить на то, чтобы пройти курс повышения математических способностей или ликвидации каких-либо других слабых мест в знаниях (Evans, Pike, 1973). Фундаментальная позиция состоит, конечно, в том, что психологические тесты не должны предаваться широкой гласности, чтобы возможные кандидаты не мог-
ли получить полезные знания таким образом. Вся необходимая информация должна быть, конечно, представлена всем кандидатам только во время предъявления инструкций по тесту.
Те, кто утверждает, что подобные проблемы требуют удаления тестов способностей в психологическую пустыню наряду с френологией и животным магнетизмом, упускают из виду две позиции. Во-первых, если бы эти эффекты были бы столь важны, тесты способностей не могли бы предсказать варианты конкретных форм поведения. Как мы видели, существуют доказательства того, что, несмотря на эти проблемы, тесты способностей могут быть здесь полезными. Во-вторых, они игнорируют руководящие указания, касающиеся «хорошей практики» предъявления тестов. Практически для всех тестов инструкции подчеркивают, что экзаменатор должен использовать свои навыки межличностного общения, чтобы заставить участников чувствовать себя настолько спокойными и защищенными, насколько возможно, стимулировать детей выполнять все наилучшим образом и т.д. Более того, в конце концов все тесты включают несколько Заданий, которые знакомят кандидатов с типами предъявляемых задач, использованием опросного листа и т.д. Таким образом, на практике большинство кандидатов должны чувствовать себя спокойными, иметь необходимую мотивацию и приобретать некоторый опыт, предшествующий основному тестированию.
Помимо этого, некоторые организации в настоящее время предлагают своим кандидатам возможность предварительного самостоятельного тестирования. Например, Государственная служба Северной Ирландии предусматривает типовой отбор, который включает рассылку соискателям детальной выборки заданий психометрического теста, так чтобы они могли попытаться выполнить их сами перед прохождением процедуры психометрического обследования (дополнительное преимущество здесь заключается в том, что индивидуумы, которые набирают очень низкий балл по тестам самопредъявления, могут отказаться от своих притязаний, уменьшая тем самым расходы),
В этой главе обсуждались некоторые проблемы психометрического тестирования, и в особенности понятие смещения, которое недостаточно хорошо понимается как внутри, так и вне психологичес-
|кого сообщества. Мы также коротко рассмотрели и другие переменные, которые могут влиять на успешность выполнения тестов способностей и личностных тестов, и обсудили их важность и последствия для практики тестирования.
Предложения по дополнительному чтению
Книга Арта Дженсена Проблема смещения в психологическом тестиро-6 вании (Bias in Mental Testing, Jensen, 1980), с моей точки зрения, — одна из наиболее интересных из числа когда-либо написанных работ по психометрике. Она содержит превосходные разделы по анализу природы смещения тестовых оценок, их обнаружения и может быть с полным основанием рекомендована. Две более ранние главы покойного П. Вернона (глава 20 (Vernon, 1979) и глава 12 (Vernon, 1963)) все еще заслуживают внимания, и еще раз подчеркнем, что образцовые тексты Кронбаха (Cronbach) и Анастази (Anastasi), так же как и некоторые тексты по психологии труда, содержат плодотворное обсуждение влияния тревоги, мотивации и различных установок на успешность выполнения тестов.
Ответы на задания по самопроверке
17.1. (а) Оценки по тестам интеллекта.
17.2. (а) Использование теста приведет к тому, что для работы в организации будет отобрано больше женщин, чем мужчин.
(б) Важно помнить, что претенденты на определенную должность не образуют случайную выборку людей. Такие факторы, как географическое местоположение бизнеса, особенности конкурирующих видов бизнеса, воспринимаемые шансы получить работу, структура разделенной системы образования, переселение, семейные традиции найма на работу и т.д., могут взаимодействовать со способностями, обеспечивая весьма искаженную выборку. Например, если в какой-либо географической области имеется известный работодатель, который принимает на работу большое число женщин-соискательниц с высоким IQ, другие предприниматели этой области могут прекратить принимать на работу отвергнутых соискателей.
(в) Постройте график критериальной успешности по успешности теста для обеих групп и проверьте, имеют ли две линии одинаковые высоту и наклон. Также проверьте надежность теста внутри каждой группы и выявите признаки внутреннего смещения. Если обнаружите какие-либо задания, вносящие искажения, удалите их и пересчитайте коэффициенты валидности. Пролистайте публикации, чтобы установить, имелись ли сообщения других исследователей со сходными результатами при использовании такого же теста и такого же критерия. Если все окажется ошибочным, попытайтесь использовать другой тест.
17.3. Женщины, имеющие низкий уровень способностей, действуют хуже, чем мужчины с низким уровнем способностей, но женщины, имеющие высокий уровень способностей, превосходят вы-сокослособных мужчин по этому тестовому заданию. Оно обнаруживает существенные признаки смещения, несмотря на то что одинаково трудно и для мужчин, и для женщин.
17.4 Кроме личностной черты, которую тест стремится измерить, ответы будут испытывать на себе влияние социальной желательности, склонности к молчаливому согласию и к реагированию по принципу крайняя позиция/консерватизм, хотя могут быть важны и другие переменные (например, восприятие индивидуумом причины тестирования).
КОНСТРУИРОВАНИЕ НАДЕЖНОГО ТЕСТА
Общая картина
Эта глава включена в книгу по двум причинам. Во-первых, возможно, что читатели на каком-то этапе могут изъявить желание разработать свою собственную шкалу, и поэтому кажется уместным предложить некоторые руководящие указания по поводу того, как можно конструировать задания и организовывать их в надежную шкалу, хотя я возражаю против этого и объясню почему: я думаю, что в психологии существует уже слишком много тестов. Во-вторых, в данной главе показано, почему невозможно просто собрать задания и считать, что они формируют надежную и валидную шкалу. Предложены также некоторые подходы к тому, как сконструировать тест без использования факторного анализа.
Главы, рекомендуемые
для предварительного чтения
1, 11, 13 и 17.
Введение
Эта глава включена на случай, если читатели либо заинтересуются тем, как конструируются тесты, либо у них возникнет желание разработать свою собственную шкалу для измерения какой-либо черты личности или способностей. Пожалуйста, не делайте этого! По моему опыту, большинство студентов, которые решают конструировать шкалы, не представляют себе, какая огромная работа требуется для их разработки, уточнения и валидизации.
Многие читатели будут сталкиваться с тестами, весьма отли-чающимиря от тех, которые были описаны в этой книге. В особенности социальные психологи измеряют несколько параметров личности, весьма отличных от черт, обсуждавшихся в главах 5, 6 и 8, и у читателей может возникнуть вопрос, почему я до сих пор не обсуждал локус контроля, самооценку и т.п. Проблема заключается в том, что большинство из этих тестов просто недостаточно отработаны. Некоторые (например, показатели локуса контроля), по-видимому, вообще измеряют не черту, а являются ситуативно-специфичными (Coombs, Schroeder, 1988). Еще хуже то, что, когда эти задания подвергаются факторному анализу, они редко формируют единственную шкалу. Многие (если не большинство) из этих тестов измеряют сочетания нескольких отдельных личностных черт, которые, как мы видели в главе 13, делают их интерпретацию почти невозможной.
Если бы случилось невероятное и я стал бы диктатором, мой первый указ был бы следующим: «Для каждого психолога наказуемым проступком является публикация любой шкалы, если более чем 70% надежной вариативности этой шкалы может быть предсказано существующими тестами». Другими словами, я совершенно убежден в необходимости доказать, что любой новый тест открывает некоторые аспекты личности или способностей, которые действительно весьма отличаются от любой комбинации черт, которую мы уже знаем и понимаем. Иначе тесты будут просто размножаться. Одна шкала будет измерять две части экстраверсии и одну часть нейротицизма. в то время как другая будет измерять две части экстраверсии и одну часть психотицизма. Вокруг этих личностных измерений будут построены громоздкие теории, затем у кого-либо возникнет яркая идея прокоррелировать эти два теста друг с другом, и (поскольку оба они измеряют в какой-то степени экстраверсию) корреляция будет большой и положительной. Волнение побежит по журналам, прославятся имена, и возникнут еще более усложненные теории, объясняющие то, что нам, просто мыслящим психометрикам, кажется достаточно очевидным.
Однако в этом описании должно быть какое-то заблуждение, поскольку большинство психологов придерживаются совершенно противоположной точки зрения и размножение тестов продолжается, несмотря на доказательства, часто дающие основание считать, что это не слишком хорошая идея. Рассмотрим тесты, измеряющие самооценку, — понятие, широко используемое в социальной психологии. Существуют доказательства (собранные вместе
в книге Клайна (Kline, 1993, ch. 20)), что тесты, претендующие на измерение самооценки, в действительности просто характеризуют смесь тревожности (или нейротицизма) и экстраверсии. Поскольку трудно представить, почему любой психолог должен хотеть измерять смесь двух различных черт в одном тесте, продолжающееся использование этих шкал всегда вызывало определенное недоумение у Клайна. Вполне допустимо объединять показатели из нескольких различных шкал; например, если есть необходимость выделить умных невротиков, это делается сложением стандартизованных показателей индивидуумов по тестам, измеряющим общие способности и нейротицизм. Дело в том, что, поступая таким образом, пользователи тестов вынуждены осознавать, какие черты реально подвергались оцениванию, а не выстраивать сложные теории по поводу того, что они ошибочно воспринимают как совершенно новые аспекты индивидуальных различий.
Тесты также широко внедряются в психологию труда, но по иным причинам. Не исключено, что в этой области «новые» шкалы могут быть проданы за поразительно большие суммы денег даже до того, как они будут должным образом валидизированы. И снова я не могу понять, почему пользователи хотят применять тесты способностей или личностные тесты, которые просто заново изобретают колесо или (что еще хуже) измеряют сочетание уже хорошо понятых черт, поскольку, как следует из главы 13, значение показателей психологической шкалы можно интерпретировать только в том случае, если все задания измеряют одну и ту же черту.
Несмотря на эти устрашающие предупреждения, полезно знать преимущества (и недостатки) нескольких методов разработки шкал, чтобы любой мог понять и оценить достоинства публикуемых тестов. Все они применяются к тестам, которые измеряют черты и не имеют временного ограничения (чтобы каждый человек имел время попытаться ответить на все вопросы). Последний пункт очень важен, поскольку последние задания всегда оказываются трудными и, если предлагаемый лимит времени ограничен, многие кандидаты только по этой причине не будут даже пытаться их выполнить.
Подготовка заданий теста
Очевидно, что написание заданий — решающий шаг в разработке теста. Если они написаны плохо, то никакая психометрическая мудрость не сможет обеспечить надежную и валидную шкалу.
Клайн (Юте, 1986) дает некоторые основанные на здравом смысле эмпирические правила для написания заданий, и я буду опираться на эту работу в следующих трех разделах. У вас может также возникнуть желание заново проверить руководящие указания вашей профессиональной ассоциации по конструированию и использованию психологических тестов, которые могут напоминать рекомендации, представленные в приложении Б. При формировании тестовых заданий необходимо иметь в виду следующие основные положения:
• Задания должны быть соответствующим образом подобраны и касаться каждой отдельной стороны концепта. Арифметический тест не должен базироваться только на задачах на «сложение». Опросник по диагностике депрессии должен включать вопросы, касающиеся разных видов поведения (например, нарушения сна или привычек питания), так же как и чувств. Было бы целесообразно составить список основных граней оцениваемого феномена и написать равное число заданий, затрагивающих каждую грань. Например, учитель может принять решение оценивать арифметические способности на основе умения выполнять деление и умножение письменно в столбик, решать геометрические/тригонометрические задачи, системы уравнений, находить корни квадратные уравнений, производить дифференцирование и интегрирование. Очень часто необходимо будет провести литературный, поиск (или изучить диагностические руководства — такие как Диагностическое статистическое руководство по психическим расстройствам, DSM-IV), чтобы убедиться, что у вас есть полное и законченное понимание предмета, который должен быть оценен.
• Тест должен быть достаточно длинным для гарантии того, что он охватывает все аспекты изучаемого предмета, и надежным. В соответствии с эмпирическими правилами вы можете начать по крайней мере с 30 заданий и уменьшать их количество не менее чем до 20 заданий, хотя, если в изучаемом предмете существует много граней, вы можете нуждаться и в большем их количестве.
• Каждое задание должно оценивать только ту черту, для измерения которой оно предназначено, иначе говоря, ответы на задания не должны зависеть от индивидуальных различий в словарном запасе, социальной желательности (или
других переменных, упоминавшихся в главе 17) или от любых иных черт.
• Должно быть тщательно проанализировано соответствие каждого задания данной культуре. В обычном случае это включает имплицитное знание, требуемое для понимания (или решения) проблемы. В примере с арифметическим тестом учитель допускает, что все дети будут в состоянии складывать, вычитать, умножать, делить и понимать порядок выполнения арифметических операций в уравнениях и т.д.
• Важно обеспечить, чтобы задания были логически независимы. В случае личностных тестов убедитесь в том, что, если логически последовательный человек отвечает на какое-либо задание определенным образом, это не «принуждает» его давать какой-либо определенный ответ на любые другие задания. Другими словами, два задания не должны иметь в виду одно и то же. В случае тестов способностей вам не следует основывать одно задание на ответе на предыдущее задание, например: «Задание 1: Сколько будет 2 + 3 ?», «Задание 6: Сколько будет, если ответ на задание 1 умножить на 4?»
• Вы могли понять, что проблема семантической зависимости заданий в личностных шкалах интересует меня особенно сильно. Очень легко создать шкалу с высоким уровнем надежности, перефразируя одно и то же задание несколько раз. Но это искусственная шкала, поскольку задания не отобраны должным образом из всей интересующей области. Поэтому я бы настоятельно советовал формирующим задания исследовать каждую возможную пару их и проверить, не принуждает ли способ, который использует человек, отвечая на одно задание, отвечать на другие определенным образом, обусловленным чем-либо иным, кроме черты, которую тест призван измерять.
Подготовка заданий для тестов способностей
Определите формат ответа, например, открытый (2 + 2 = ?) или множественного выбора [2 + 2 = (а) 4, (б) 22, (в) 5, (г) 3], и, если выбран формат множественного выбора, определите, сколько альтернатив следует предложить. Должно быть предложено по крайней мере четыре альтернативы, чтобы уменьшить эффекты «удачного угадывания».
Напишите равное-количество заданий по каждой теме. При использовании формата множественного выбора постарайтесь сконструировать хорошие, правдоподобные дистракторы (возможно, основывающиеся на анализе ошибок из других тестов) и попытайтесь обеспечить, чтобы задания по каждой теме имели сходные и соответствующие диапазоны трудности.
Убедитесь, что не поддались соблазну проверять нечто незначительное только потому, что это легко сделать. Например, если вы разрабатываете тест для опенки статистических способностей студентов, самый легкий тип заданий, который можно написать, касается формул и определений, например: «Как выглядит уравнение для вычисления стандартного отклонения значений в данной выборке?» Проблема, однако, заключается в том, что преподаватель должен быть заинтересован в проверке того, насколько хорошо студенты понимают и могут применять эти понятия, — повторение определения в подражание попугаю редко оказывается целесообразным. Другой хороший пример — тест, направленный на оценку навыков вождения. Я могу вспомнить, как учил и повторял длину тормозного пути, хотя оказалось, что экзаменаторы никогда не проверяли, знали ли обучающиеся, когда они вели машину, каковы в действительности эти дистанции.
Галликсен (Gulliksen, 1986) опубликовал превосходную, без излишних технических подробностей работу по оценке способностей и достижений. В ней приводится несколько других форм тестовых заданий, и ее прочтение является принципиально важным для любого, кто заинтересован в конструировании тестов в этой области в целом.
Подготовка заданий для личностных тестов
Первый шаг заключается в том, чтобы решить, в каком виде вы хотите получить ответы на ваши вопросы от респондентов. Существует несколько наиболее распространенных форматов. Тест может представлять утверждения, с которыми люди соглашаются, по отношению к которым они нейтральны, или неуверены, или несогласны, например: «Ночью я не могу уснуть, переживая события дня». Вы можете также, подумав, добавить: «совершенно согласен», «совершенно не согласен», однако не используйте больше семи категорий ответа. Если вы применяете такой тип шкалы, всегда используйте в опроснике такие слова, как «согласен/?/не-
28 - 989
согласен», а не просто цифры. Если используются меньше, чем три категории, могут возникнуть статистические проблемы. При таком типе заданий попытайтесь выдержать нечетное число выборов, поскольку это гарантирует наличие центрального нейтрального ответа, который нравится тестируемым. С другой стороны, тест может содержать несколько возможных вариантов ответа, например: «На прошлой неделе мои тревоги не давали мне возможности сразу уснуть: (а) ни одного дня, (б) один или два дня, (в) три или четыре дня, (г) пять или более дней».
Старайтесь писать утверждения так, чтобы они были четкими, недвусмысленными и требовали как можно меньше самоанализа. Всегда, когда возможно, вы должны обращаться к поведению, а не к чувствам, как это показано во втором примере предыдущего абзаца.
Обеспечьте, чтобы в каждом пункте был задан только один вопрос. Например, не используйте утверждения такого типа, как: «Временами я чувствовал себя подавленным и пытался совершить самоубийство», поскольку крайне депрессивные люди, которые (совсем) не помышляют о попытке самоубийства, не согласятся с этим утверждением, последнее, вероятно, не то, что предполагается получить.
Старайтесь избегать утверждений, сформулированных в отрицательной форме, таких, как: «Мне не нравятся студенты»: «да/?/нет», поскольку выбор ответа «нет» требует от испытуемого интерпретации двойного отрицания.
Старайтесь избегать вопросов, касающихся частоты и количества, вместо этого обращайтесь не к общим вариантам поведения, а к конкретным. Вместо того чтобы спрашивать: «Вы много читаете?», задавайте вопрос: «Сколько книг вы прочитали ради удовольствия в прошлом месяце?» или еще лучше вопрос: «Перечислите книги, которые вы прочитали ради удовольствия в прошлом месяце» (последний может уменьшить социально желательные ответы).
Убедитесь, что ни одно из слов не допускает двойного толкования. Например, в один личностный опросник был включен вопрос: «Получаете ли вы удовольствие от веселых вечеринок?», хотя слово «веселый» («gay») по-английски может означать индивидуума с гомосексуальной ориентацией.
Попытайтесь добиться того, чтобы около 50% заданий по каждому аспекту опросника были построены таким образом, чтобы
ответ «да/совершенно-'Согласен» соответствовал высокой оценке по черте, а другие 50% соответствовали бы низкой оценке по черте. Например, если на утверждение «Обычно я засыпаю ночью сразу же, как только выключается свет» следует ответ: «Совершенно не согласен», это оценивается как указание на тревожность.
Если вы должны спросить о чем-то социально нежелательном, рассмотрите возможность формулировки утверждения как бы с точки зрения другого человека, например: «Некоторые люди могут описывать меня как скупого», а не «вы скупой?».
И наконец, целесообразно иметь такой текст инструкции, что-.бы она призывала респондентов давать первый ответ, который естественным образом приходит в голову, а не искать скрытые значения.
Общие принцип анализа заданий
Закончив набросок теста, необходимо обеспечить, чтобы все задания измеряли один и тот же конструкт, прежде чем проводить проверку надежности и валидности теста. Чтобы сделать это, тест следует предъявить большой выборке людей (п > 200), сходных по своим характеристикам с индивидуумами, которые будут в конечном счете тестироваться при помощи этого теста. Например, если тест будет использоваться для отбора окончивших обучение соискателей в определенную организацию, было бы целесообразно испытать этот тест на студентах, а не на 16-летних школьниках общеобразовательной школы (из-за разной академической подготовки) или пенсионерах (из-за различия в возрасте). Ответы затем обрабатываются, и для каждого индивидуума вычисляется общий балл.
Следующая стадия заключается в том, чтобы проанализировать средние показатели и стандартные отклонения по каждому из заданий. В тесте способностей (где правильный ответ вознаграждается одним баллом, а за неправильный не дают ничего) средняя оценка указывает на степень трудности каждого задания. Средний показатель 0,95 будет означать, что 95% выборки дали правильные ответы на задания. В случае личностных тестов средняя оценка показывает степень, с которой индивидуумы склонны соглашаться или не соглашаться с утверждениями. В соответ-
ствии с общим эмпирическим правилом было бы нежелательно иметь слишком много очень легких или очень трудных заданий в тесте. Таким образом, если более чем 10% заданий имеют средние показатели выше 0,8 или ниже 0,2, будет резонным обдумать возможность удаления некоторых заданий.
Задание для самопроверки 18.1
Почему нецелесообразно иметь слишком много очень легких или очень трудных заданий в тесте?
Величина стандартного отклонения по каждому заданию показывает размах индивидуальных различий, обнаруженных среди ответов испытуемых на это задание. Например, если задание имеет стандартное отклонение, равное 0, значит, все ответили одним и тем же образом и, следовательно, оно явно не фиксирует индивидуальные различия любого рода и должно быть удалено из шкалы. (Когда задания обрабатываются при помощи дихотомической шкалы, такой, как «правильно/неправильно», стандартное отклонение прямо связано со средним значением, что читатели, изучавшие биномиальную теорему, могли бы подтвердить самостоятельно. Этот этап вычисления должен быть в таких случаях пропущен.)
Хотя проверка средних и стандартных отклонений оценок — необходимый первый шаг, она не может обнаружить, какие вопросы в тесте имеют плохое содержание. Например, представим себе, что одно задание в личностном тесте использовало язык, который оказался слишком трудным для понимания испытуемыми, побуждая всех их просто угадывать ответ. На другое задание могла отрицательно влиять «социальная желательность». Мы приведем четыре метода анализа задания для выявления тех из них, которые по той или иной причине просто не измеряют то же самое, что измеряют другие задания теста.
Дата добавления: 2015-03-03; просмотров: 879;