Актуальность технического обслуживания 19 страница

Индивидуальные различия в склонности давать социально же­лательные ответы могут быть измерены с помощью шкалы Крау-на—Марлоу (Crowne, Marlowe, 1964), следовательно, группе ин­дивидуумов можно дать этот опросник наряду с разрабатываемым опросником, в контексте, в котором тот будет использоваться. Если на любое утверждение опросника сильно влияет социальная жела­тельность, ответы на эти вопросы будут существенно коррелиро­вать с оценками индивидуумов по шкале Крауна—Марлоу, Если социальная желательность, наоборот, мало влияет на утвержде­ния, корреляции будут незначительны. Это позволяет выделить те утверждения, которые наиболее сильно подвержены социальной желательности, и рассмотреть затем вопрос об их устранении или

перефразировании в процессе конструирования теста. Способ, который люди используют при заполнении шкал Ли-керта, также может зависеть от некоторых других особенностей их личности. Типичная шкала Ликерта может предложить тестируе­мому обвести кружком одну из цифр от 1 до 5, когда ранг 1 озна­чает, что испытуемый «полностью не согласен» с утверждением, а ранг 5 подразумевает, что он «полностью согласен» с ним. Не­сколько лет назад Пол Клайн, Джоун Мей и я заинтересовались разработкой «объективного теста» для измерения авторитарных аттитюдрв. Мы предполагали, что авторитарные типы склонны рас­сматривать мир в категориях «черное—белое», лишенных любых сомнений и двойственности. По этой причине мы высказали пред­положение, что при предъявлении 5-балльной ранговой шкалы они, в отличие от контрольных групп, будут обводить в кружок большей частью крайние числа 1 и 5 и значительно реже промежу-

точные позиции. Именно это мы и получили (Cooper et al,, 1986). Таким образом, здесь представлена другая личностная особенность, влияющая на способ, используемый людьми при заполнении шкал Ликерта.

Задание для самопроверки 17.4

Назовите какие-либо переменные, которые могут влиять на характер выполнения личностных тестов.

Факторы, влияющие

на выполнение тестов способностей

Без лишних слов ясно, что условия предъявления теста, по-видимому, оказывают большое влияние на успешность его вы­полнения, особенно применительно к тестам способностей. Тес­тирование больших групп нервничающих людей в переполненной душной комнате с высоким уровнем фонового шума — это доста­точно очевидный рецепт для неудачного выполнения теста, так же как и любое отклонение от инструкции теста, применения об­разцов или временных лимитов. Однако в этом разделе мы рас­смотрим некоторые другие психологические характеристики ин­дивидуумов, которые также могут влиять на способ обращения с тестами способностей.

Мотивация личности при работе с любым тестом, вероятно, будет оказывать определенное влияние на успешность его выпол­нения. Поощрение даже очень маленьких детей к успешному вы­полнению может привести к значительному повышению их опе­нок по тестам способностей сравнительно с контрольными груп­пами (Brown, Walberg, 1993). Предполагается, что культурные факторы также оказывают большое влияние на успешность вы­полнения тестов. Если ребенок убежден, что он вряд ли сможет хорошо выполнить тест, то, возможно, он действительно будет плохо выполнять его в силу подверженности влиянию стереоти­пов (например, Steele, Aronson, 1995). Предполагается также, что важна социальная атмосфера ситуации тестирования и что воз­раст, пол, уровень тревоги и уровень энтузиазма индивидуума могут влиять на получаемые оценки. Однако, как утверждает Кронбах (Cronbach, 1994), имеется удивительно мало доказательств лю­бых устойчивых различий. Совершенно не обязательно, что чер-

нокожие дети будут выполнять тесты способностей лучше, если психолог.будет черным, а не белым (Jensen, 1980; Sattler, Gwyn-ne, 1987).

Имеется также по-настоящему обширный массив литератур­ных данных по психологии тревоги, возникающей во время тес­тирования и ее воздействию на успешность. Существует междуна­родное общество по изучению этого предмета и даже имеются тесты тревожности, предназначенные для специфических пред­метных областей, таких, как математика или спорт, так же как и общий тест тревоги (Spielberger, 1980), хотя (с моей точки зре­ния) мало убедительных доказательств, что тестовая тревога ре­ально отличается от «обычного» состояния тревоги или от черты тревожности. Высокие уровни тревоги оказываются действитель­но связаны с пониженной успешностью выполнения многих тес­тов способностей или достижений (например, Schwarzer et al, 1989), однако утверждение на этой основе причинной связи мо­жет оказаться опасным. Возможно, что сильная тревога возникает как результат вполне правильной самооценки того, что человек окажется не в состоянии выполнить тест хорошо.

Эффекты практики и тренинга также могут улучшать успеш­ность выполнения тестов при некоторых обстоятельствах, но сле­дует сделать разграничение между теми вмешательствами, кото­рые предназначены для изменения уровня черты, и теми, кото­рые специфичны для одного конкретного измерительного инструмента, например, обучение распределению времени и стратегиям угады­вания для теста школьных способностей (тест используется при поступлении в колледж в США). Вмешательства, предназначен­ные улучшить уровень черт, не ставят больших этических про­блем, в то же время попытки улучшить успешность выполнения одного определенного теста, без сомнения, несправедливы по от­ношению к кандидатам, которым не хватает скрытого знания о том, как тест работает, что делает для них невозможным выбор соответствующей стратегии, или которым не хватает денег, что­бы нанять репетитора. Польза от этого не слишком велика. В случае теста школьных способностей совершенно не ясно, не лучше ли будет время и энергию, отданную изучению «тонкостей теста», потратить на то, чтобы пройти курс повышения математических способностей или ликвидации каких-либо других слабых мест в знаниях (Evans, Pike, 1973). Фундаментальная позиция состоит, конечно, в том, что психологические тесты не должны преда­ваться широкой гласности, чтобы возможные кандидаты не мог-

ли получить полезные знания таким образом. Вся необходимая информация должна быть, конечно, представлена всем кандида­там только во время предъявления инструкций по тесту.

Те, кто утверждает, что подобные проблемы требуют удаления тестов способностей в психологическую пустыню наряду с френо­логией и животным магнетизмом, упускают из виду две позиции. Во-первых, если бы эти эффекты были бы столь важны, тесты способностей не могли бы предсказать варианты конкретных форм поведения. Как мы видели, существуют доказательства того, что, несмотря на эти проблемы, тесты способностей могут быть здесь полезными. Во-вторых, они игнорируют руководящие указания, касающиеся «хорошей практики» предъявления тестов. Практически для всех тестов инструкции подчеркивают, что экзаменатор дол­жен использовать свои навыки межличностного общения, чтобы заставить участников чувствовать себя настолько спокойными и защищенными, насколько возможно, стимулировать детей выпол­нять все наилучшим образом и т.д. Более того, в конце концов все тесты включают несколько Заданий, которые знакомят кандида­тов с типами предъявляемых задач, использованием опросного листа и т.д. Таким образом, на практике большинство кандидатов должны чувствовать себя спокойными, иметь необходимую моти­вацию и приобретать некоторый опыт, предшествующий основ­ному тестированию.

Помимо этого, некоторые организации в настоящее время пред­лагают своим кандидатам возможность предварительного само­стоятельного тестирования. Например, Государственная служба Северной Ирландии предусматривает типовой отбор, который включает рассылку соискателям детальной выборки заданий пси­хометрического теста, так чтобы они могли попытаться выпол­нить их сами перед прохождением процедуры психометрического обследования (дополнительное преимущество здесь заключается в том, что индивидуумы, которые набирают очень низкий балл по тестам самопредъявления, могут отказаться от своих притязаний, уменьшая тем самым расходы),

В этой главе обсуждались некоторые проблемы психометрическо­го тестирования, и в особенности понятие смещения, которое недо­статочно хорошо понимается как внутри, так и вне психологичес-

|кого сообщества. Мы также коротко рассмотрели и другие пере­менные, которые могут влиять на успешность выполнения тестов способностей и личностных тестов, и обсудили их важность и по­следствия для практики тестирования.

Предложения по дополнительному чтению

Книга Арта Дженсена Проблема смещения в психологическом тестиро-6 вании (Bias in Mental Testing, Jensen, 1980), с моей точки зрения, — одна из наиболее интересных из числа когда-либо написанных работ по психо­метрике. Она содержит превосходные разделы по анализу природы сме­щения тестовых оценок, их обнаружения и может быть с полным основа­нием рекомендована. Две более ранние главы покойного П. Вернона (гла­ва 20 (Vernon, 1979) и глава 12 (Vernon, 1963)) все еще заслуживают внимания, и еще раз подчеркнем, что образцовые тексты Кронбаха (Cronbach) и Анастази (Anastasi), так же как и некоторые тексты по пси­хологии труда, содержат плодотворное обсуждение влияния тревоги, мо­тивации и различных установок на успешность выполнения тестов.

Ответы на задания по самопроверке

17.1. (а) Оценки по тестам интеллекта.

17.2. (а) Использование теста приведет к тому, что для работы в орга­низации будет отобрано больше женщин, чем мужчин.

(б) Важно помнить, что претенденты на определенную должность не образуют случайную выборку людей. Такие факторы, как гео­графическое местоположение бизнеса, особенности конкуриру­ющих видов бизнеса, воспринимаемые шансы получить работу, структура разделенной системы образования, переселение, се­мейные традиции найма на работу и т.д., могут взаимодейство­вать со способностями, обеспечивая весьма искаженную выборку. Например, если в какой-либо географической области имеется известный работодатель, который принимает на работу боль­шое число женщин-соискательниц с высоким IQ, другие пред­приниматели этой области могут прекратить принимать на ра­боту отвергнутых соискателей.

(в) Постройте график критериальной успешности по успешности теста для обеих групп и проверьте, имеют ли две линии одина­ковые высоту и наклон. Также проверьте надежность теста внут­ри каждой группы и выявите признаки внутреннего смещения. Если обнаружите какие-либо задания, вносящие искажения, уда­лите их и пересчитайте коэффициенты валидности. Пролистай­те публикации, чтобы установить, имелись ли сообщения других исследователей со сходными результатами при использовании такого же теста и такого же критерия. Если все окажется оши­бочным, попытайтесь использовать другой тест.

17.3. Женщины, имеющие низкий уровень способностей, действуют хуже, чем мужчины с низким уровнем способностей, но женщи­ны, имеющие высокий уровень способностей, превосходят вы-сокослособных мужчин по этому тестовому заданию. Оно обна­руживает существенные признаки смещения, несмотря на то что одинаково трудно и для мужчин, и для женщин.

17.4 Кроме личностной черты, которую тест стремится измерить, от­веты будут испытывать на себе влияние социальной желатель­ности, склонности к молчаливому согласию и к реагированию по принципу крайняя позиция/консерватизм, хотя могут быть важ­ны и другие переменные (например, восприятие индивидуумом причины тестирования).

 


КОНСТРУИРОВАНИЕ НАДЕЖНОГО ТЕСТА

Общая картина

Эта глава включена в книгу по двум причинам. Во-первых, возможно, что читатели на каком-то этапе могут изъявить жела­ние разработать свою собственную шкалу, и поэтому кажется уме­стным предложить некоторые руководящие указания по поводу того, как можно конструировать задания и организовывать их в надежную шкалу, хотя я возражаю против этого и объясню поче­му: я думаю, что в психологии существует уже слишком много тестов. Во-вторых, в данной главе показано, почему невозмож­но просто собрать задания и считать, что они формируют надеж­ную и валидную шкалу. Предложены также некоторые подходы к тому, как сконструировать тест без использования факторного анализа.

Главы, рекомендуемые

для предварительного чтения

1, 11, 13 и 17.

Введение

Эта глава включена на случай, если читатели либо заинтересу­ются тем, как конструируются тесты, либо у них возникнет жела­ние разработать свою собственную шкалу для измерения какой-либо черты личности или способностей. Пожалуйста, не делайте этого! По моему опыту, большинство студентов, которые решают конструировать шкалы, не представляют себе, какая огромная ра­бота требуется для их разработки, уточнения и валидизации.

Многие читатели будут сталкиваться с тестами, весьма отли-чающимиря от тех, которые были описаны в этой книге. В особен­ности социальные психологи измеряют несколько параметров лич­ности, весьма отличных от черт, обсуждавшихся в главах 5, 6 и 8, и у читателей может возникнуть вопрос, почему я до сих пор не обсуждал локус контроля, самооценку и т.п. Проблема заключает­ся в том, что большинство из этих тестов просто недостаточно отработаны. Некоторые (например, показатели локуса контроля), по-видимому, вообще измеряют не черту, а являются ситуативно-специфичными (Coombs, Schroeder, 1988). Еще хуже то, что, ког­да эти задания подвергаются факторному анализу, они редко фор­мируют единственную шкалу. Многие (если не большинство) из этих тестов измеряют сочетания нескольких отдельных личност­ных черт, которые, как мы видели в главе 13, делают их интерпре­тацию почти невозможной.

Если бы случилось невероятное и я стал бы диктатором, мой первый указ был бы следующим: «Для каждого психолога наказуе­мым проступком является публикация любой шкалы, если более чем 70% надежной вариативности этой шкалы может быть предсказа­но существующими тестами». Другими словами, я совершенно убеж­ден в необходимости доказать, что любой новый тест открывает некоторые аспекты личности или способностей, которые действи­тельно весьма отличаются от любой комбинации черт, которую мы уже знаем и понимаем. Иначе тесты будут просто размножаться. Одна шкала будет измерять две части экстраверсии и одну часть нейротицизма. в то время как другая будет измерять две части экстраверсии и одну часть психотицизма. Вокруг этих личностных измерений будут построены громоздкие теории, затем у кого-либо возникнет яркая идея прокоррелировать эти два теста друг с дру­гом, и (поскольку оба они измеряют в какой-то степени экстра­версию) корреляция будет большой и положительной. Волнение побежит по журналам, прославятся имена, и возникнут еще более усложненные теории, объясняющие то, что нам, просто мысля­щим психометрикам, кажется достаточно очевидным.

Однако в этом описании должно быть какое-то заблуждение, поскольку большинство психологов придерживаются совершенно противоположной точки зрения и размножение тестов продолжа­ется, несмотря на доказательства, часто дающие основание счи­тать, что это не слишком хорошая идея. Рассмотрим тесты, изме­ряющие самооценку, — понятие, широко используемое в соци­альной психологии. Существуют доказательства (собранные вместе

в книге Клайна (Kline, 1993, ch. 20)), что тесты, претендующие на измерение самооценки, в действительности просто характеризуют смесь тревожности (или нейротицизма) и экстраверсии. Посколь­ку трудно представить, почему любой психолог должен хотеть из­мерять смесь двух различных черт в одном тесте, продолжающееся использование этих шкал всегда вызывало определенное недоуме­ние у Клайна. Вполне допустимо объединять показатели из не­скольких различных шкал; например, если есть необходимость выделить умных невротиков, это делается сложением стандарти­зованных показателей индивидуумов по тестам, измеряющим об­щие способности и нейротицизм. Дело в том, что, поступая таким образом, пользователи тестов вынуждены осознавать, какие чер­ты реально подвергались оцениванию, а не выстраивать сложные теории по поводу того, что они ошибочно воспринимают как со­вершенно новые аспекты индивидуальных различий.

Тесты также широко внедряются в психологию труда, но по иным причинам. Не исключено, что в этой области «новые» шка­лы могут быть проданы за поразительно большие суммы денег даже до того, как они будут должным образом валидизированы. И снова я не могу понять, почему пользователи хотят применять тесты способностей или личностные тесты, которые просто заново изоб­ретают колесо или (что еще хуже) измеряют сочетание уже хоро­шо понятых черт, поскольку, как следует из главы 13, значение показателей психологической шкалы можно интерпретировать толь­ко в том случае, если все задания измеряют одну и ту же черту.

Несмотря на эти устрашающие предупреждения, полезно знать преимущества (и недостатки) нескольких методов разработки шкал, чтобы любой мог понять и оценить достоинства публикуемых тес­тов. Все они применяются к тестам, которые измеряют черты и не имеют временного ограничения (чтобы каждый человек имел время попытаться ответить на все вопросы). Последний пункт очень важен, поскольку последние задания всегда оказываются трудными и, если предлагаемый лимит времени ограничен, многие кандидаты только по этой причине не будут даже пытаться их выполнить.

Подготовка заданий теста

Очевидно, что написание заданий — решающий шаг в разра­ботке теста. Если они написаны плохо, то никакая психометричес­кая мудрость не сможет обеспечить надежную и валидную шкалу.

Клайн (Юте, 1986) дает некоторые основанные на здравом смыс­ле эмпирические правила для написания заданий, и я буду опи­раться на эту работу в следующих трех разделах. У вас может также возникнуть желание заново проверить руководящие указания ва­шей профессиональной ассоциации по конструированию и исполь­зованию психологических тестов, которые могут напоминать ре­комендации, представленные в приложении Б. При формирова­нии тестовых заданий необходимо иметь в виду следующие основные положения:

• Задания должны быть соответствующим образом подобраны и касаться каждой отдельной стороны концепта. Арифмети­ческий тест не должен базироваться только на задачах на «сложение». Опросник по диагностике депрессии должен включать вопросы, касающиеся разных видов поведения (на­пример, нарушения сна или привычек питания), так же как и чувств. Было бы целесообразно составить список основных граней оцениваемого феномена и написать равное число за­даний, затрагивающих каждую грань. Например, учитель может принять решение оценивать арифметические способ­ности на основе умения выполнять деление и умножение письменно в столбик, решать геометрические/тригономет­рические задачи, системы уравнений, находить корни квад­ратные уравнений, производить дифференцирование и ин­тегрирование. Очень часто необходимо будет провести лите­ратурный, поиск (или изучить диагностические руководства — такие как Диагностическое статистическое руководство по психическим расстройствам, DSM-IV), чтобы убедиться, что у вас есть полное и законченное понимание предмета, кото­рый должен быть оценен.

• Тест должен быть достаточно длинным для гарантии того, что он охватывает все аспекты изучаемого предмета, и на­дежным. В соответствии с эмпирическими правилами вы мо­жете начать по крайней мере с 30 заданий и уменьшать их количество не менее чем до 20 заданий, хотя, если в изуча­емом предмете существует много граней, вы можете нуж­даться и в большем их количестве.

• Каждое задание должно оценивать только ту черту, для из­мерения которой оно предназначено, иначе говоря, ответы на задания не должны зависеть от индивидуальных разли­чий в словарном запасе, социальной желательности (или

других переменных, упоминавшихся в главе 17) или от лю­бых иных черт.

• Должно быть тщательно проанализировано соответствие каж­дого задания данной культуре. В обычном случае это включа­ет имплицитное знание, требуемое для понимания (или ре­шения) проблемы. В примере с арифметическим тестом учи­тель допускает, что все дети будут в состоянии складывать, вычитать, умножать, делить и понимать порядок выполне­ния арифметических операций в уравнениях и т.д.

• Важно обеспечить, чтобы задания были логически незави­симы. В случае личностных тестов убедитесь в том, что, если логически последовательный человек отвечает на какое-либо задание определенным образом, это не «принуждает» его давать какой-либо определенный ответ на любые другие за­дания. Другими словами, два задания не должны иметь в виду одно и то же. В случае тестов способностей вам не следует основывать одно задание на ответе на предыдущее задание, например: «Задание 1: Сколько будет 2 + 3 ?», «Задание 6: Сколько будет, если ответ на задание 1 умножить на 4?»

• Вы могли понять, что проблема семантической зависимости заданий в личностных шкалах интересует меня особенно силь­но. Очень легко создать шкалу с высоким уровнем надежно­сти, перефразируя одно и то же задание несколько раз. Но это искусственная шкала, поскольку задания не отобраны должным образом из всей интересующей области. Поэтому я бы настоятельно советовал формирующим задания исследо­вать каждую возможную пару их и проверить, не принужда­ет ли способ, который использует человек, отвечая на одно задание, отвечать на другие определенным образом, обус­ловленным чем-либо иным, кроме черты, которую тест при­зван измерять.

Подготовка заданий для тестов способностей

Определите формат ответа, например, открытый (2 + 2 = ?) или множественного выбора [2 + 2 = (а) 4, (б) 22, (в) 5, (г) 3], и, если выбран формат множественного выбора, определите, сколь­ко альтернатив следует предложить. Должно быть предложено по крайней мере четыре альтернативы, чтобы уменьшить эффекты «удачного угадывания».

Напишите равное-количество заданий по каждой теме. При использовании формата множественного выбора постарайтесь скон­струировать хорошие, правдоподобные дистракторы (возможно, основывающиеся на анализе ошибок из других тестов) и попы­тайтесь обеспечить, чтобы задания по каждой теме имели сходные и соответствующие диапазоны трудности.

Убедитесь, что не поддались соблазну проверять нечто незна­чительное только потому, что это легко сделать. Например, если вы разрабатываете тест для опенки статистических способностей студентов, самый легкий тип заданий, который можно написать, касается формул и определений, например: «Как выглядит урав­нение для вычисления стандартного отклонения значений в дан­ной выборке?» Проблема, однако, заключается в том, что препо­даватель должен быть заинтересован в проверке того, насколько хорошо студенты понимают и могут применять эти понятия, — повторение определения в подражание попугаю редко оказывает­ся целесообразным. Другой хороший пример — тест, направлен­ный на оценку навыков вождения. Я могу вспомнить, как учил и повторял длину тормозного пути, хотя оказалось, что экзаменато­ры никогда не проверяли, знали ли обучающиеся, когда они вели машину, каковы в действительности эти дистанции.

Галликсен (Gulliksen, 1986) опубликовал превосходную, без излишних технических подробностей работу по оценке способно­стей и достижений. В ней приводится несколько других форм тес­товых заданий, и ее прочтение является принципиально важным для любого, кто заинтересован в конструировании тестов в этой области в целом.

Подготовка заданий для личностных тестов

Первый шаг заключается в том, чтобы решить, в каком виде вы хотите получить ответы на ваши вопросы от респондентов. Су­ществует несколько наиболее распространенных форматов. Тест может представлять утверждения, с которыми люди соглашаются, по отношению к которым они нейтральны, или неуверены, или несогласны, например: «Ночью я не могу уснуть, переживая со­бытия дня». Вы можете также, подумав, добавить: «совершенно согласен», «совершенно не согласен», однако не используйте боль­ше семи категорий ответа. Если вы применяете такой тип шкалы, всегда используйте в опроснике такие слова, как «согласен/?/не-

28 - 989

согласен», а не просто цифры. Если используются меньше, чем три категории, могут возникнуть статистические проблемы. При таком типе заданий попытайтесь выдержать нечетное число выбо­ров, поскольку это гарантирует наличие центрального нейтраль­ного ответа, который нравится тестируемым. С другой стороны, тест может содержать несколько возможных вариантов ответа, на­пример: «На прошлой неделе мои тревоги не давали мне возмож­ности сразу уснуть: (а) ни одного дня, (б) один или два дня, (в) три или четыре дня, (г) пять или более дней».

Старайтесь писать утверждения так, чтобы они были четкими, недвусмысленными и требовали как можно меньше самоанализа. Всегда, когда возможно, вы должны обращаться к поведению, а не к чувствам, как это показано во втором примере предыдущего абзаца.

Обеспечьте, чтобы в каждом пункте был задан только один вопрос. Например, не используйте утверждения такого типа, как: «Временами я чувствовал себя подавленным и пытался совершить самоубийство», поскольку крайне депрессивные люди, которые (совсем) не помышляют о попытке самоубийства, не согласятся с этим утверждением, последнее, вероятно, не то, что предпола­гается получить.

Старайтесь избегать утверждений, сформулированных в отрица­тельной форме, таких, как: «Мне не нравятся студенты»: «да/?/нет», поскольку выбор ответа «нет» требует от испытуемого интерпрета­ции двойного отрицания.

Старайтесь избегать вопросов, касающихся частоты и количе­ства, вместо этого обращайтесь не к общим вариантам поведе­ния, а к конкретным. Вместо того чтобы спрашивать: «Вы много читаете?», задавайте вопрос: «Сколько книг вы прочитали ради удовольствия в прошлом месяце?» или еще лучше вопрос: «Пере­числите книги, которые вы прочитали ради удовольствия в про­шлом месяце» (последний может уменьшить социально желатель­ные ответы).

Убедитесь, что ни одно из слов не допускает двойного толко­вания. Например, в один личностный опросник был включен воп­рос: «Получаете ли вы удовольствие от веселых вечеринок?», хотя слово «веселый» («gay») по-английски может означать индивиду­ума с гомосексуальной ориентацией.

Попытайтесь добиться того, чтобы около 50% заданий по каж­дому аспекту опросника были построены таким образом, чтобы

ответ «да/совершенно-'Согласен» соответствовал высокой оценке по черте, а другие 50% соответствовали бы низкой оценке по чер­те. Например, если на утверждение «Обычно я засыпаю ночью сразу же, как только выключается свет» следует ответ: «Совершенно не согласен», это оценивается как указание на тревожность.

Если вы должны спросить о чем-то социально нежелательном, рассмотрите возможность формулировки утверждения как бы с точки зрения другого человека, например: «Некоторые люди мо­гут описывать меня как скупого», а не «вы скупой?».

И наконец, целесообразно иметь такой текст инструкции, что-.бы она призывала респондентов давать первый ответ, который естественным образом приходит в голову, а не искать скрытые значения.

Общие принцип анализа заданий

Закончив набросок теста, необходимо обеспечить, чтобы все задания измеряли один и тот же конструкт, прежде чем прово­дить проверку надежности и валидности теста. Чтобы сделать это, тест следует предъявить большой выборке людей (п > 200), сход­ных по своим характеристикам с индивидуумами, которые будут в конечном счете тестироваться при помощи этого теста. Напри­мер, если тест будет использоваться для отбора окончивших обу­чение соискателей в определенную организацию, было бы целе­сообразно испытать этот тест на студентах, а не на 16-летних школьниках общеобразовательной школы (из-за разной академи­ческой подготовки) или пенсионерах (из-за различия в возрасте). Ответы затем обрабатываются, и для каждого индивидуума вы­числяется общий балл.

Следующая стадия заключается в том, чтобы проанализиро­вать средние показатели и стандартные отклонения по каждому из заданий. В тесте способностей (где правильный ответ вознаг­раждается одним баллом, а за неправильный не дают ничего) средняя оценка указывает на степень трудности каждого задания. Средний показатель 0,95 будет означать, что 95% выборки дали правильные ответы на задания. В случае личностных тестов сред­няя оценка показывает степень, с которой индивидуумы склон­ны соглашаться или не соглашаться с утверждениями. В соответ-

ствии с общим эмпирическим правилом было бы нежелательно иметь слишком много очень легких или очень трудных заданий в тесте. Таким образом, если более чем 10% заданий имеют средние показатели выше 0,8 или ниже 0,2, будет резонным обдумать воз­можность удаления некоторых заданий.

Задание для самопроверки 18.1

Почему нецелесообразно иметь слишком много очень легких или очень трудных заданий в тесте?

Величина стандартного отклонения по каждому заданию пока­зывает размах индивидуальных различий, обнаруженных среди от­ветов испытуемых на это задание. Например, если задание имеет стандартное отклонение, равное 0, значит, все ответили одним и тем же образом и, следовательно, оно явно не фиксирует индиви­дуальные различия любого рода и должно быть удалено из шкалы. (Когда задания обрабатываются при помощи дихотомической шка­лы, такой, как «правильно/неправильно», стандартное отклоне­ние прямо связано со средним значением, что читатели, изучав­шие биномиальную теорему, могли бы подтвердить самостоятель­но. Этот этап вычисления должен быть в таких случаях пропущен.)

Хотя проверка средних и стандартных отклонений оценок — необходимый первый шаг, она не может обнаружить, какие воп­росы в тесте имеют плохое содержание. Например, представим себе, что одно задание в личностном тесте использовало язык, который оказался слишком трудным для понимания испытуемыми, побуж­дая всех их просто угадывать ответ. На другое задание могла отри­цательно влиять «социальная желательность». Мы приведем четы­ре метода анализа задания для выявления тех из них, которые по той или иной причине просто не измеряют то же самое, что изме­ряют другие задания теста.








Дата добавления: 2015-03-03; просмотров: 879;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.025 сек.