Задание для самопроверки 7.1 19 страница
но, что ничего не будет обнаружено, поскольку задания, трудные для мужчин, являются легкими для женщин, и наоборот. Таким образом, тест вполне может быть насыщен заданиями, содержащими смещения, но анализ групповых различий или регрессионный анализ будет при этом оценивать шкалу в целом как вполне удовлетворительную (см. рис. 17.1). Только обращаясь к уровню отдельных заданий, можно действительно увидеть, что происходит, и выделить задания, которые, вероятно, было бы полезно удалить из шкалы.
Что бы ни говорили инструкции к тестам, люди делают весьма странные вещи при выполнении личностных тестов. Если бы вы взяли шкалы Айзенка и Уилсона, то могли бы получить подтверждение этому. Эти характеристики известны как «смещения ответа», или «установки на ответ», поскольку они описывают способы, которыми индивидуумы склонны решать оценочные задания. Например, хорошо известно, что люди с большей вероятностью склонны соглашаться с утверждениями, чем не соглашаться с
ними, — это в полном объеме эксплуатируется недобросовестными исследователями рынка. Представим себе, что тщательно отобранной выборке из людей вы задали вопрос: «Намереваетесь ли вы голосовать за существующее правительство на следующих выборах?» — и обнаружили, что 55% ответили положительно. Затем другой выборке вы задали вопрос: «Намереваетесь ли вы голосовать за одну из оппозиционных партий на следующих выборах?» Вы можете наивно полагать на основе первого опроса, что около 100 — 55 = 45% людей дадут положительный ответ. В действительности пропорция, вероятно, будет значительно выше, просто потому, что люди более склонны говорить «да», чем «нет», независимо от того, какой вопрос им задан (Cronbach, 1946). Это называется установкой на молчаливое согласие.
Этот факт имеет некоторые весьма неприятные последствия при тестировании персонала. Он означает, что в любой личностной шкале, например, в шкале тревоги, где все задания обрабатываются по одной и той же схеме (таким образом, что ответ «да» или «совершенно согласен» обеспечивает высокие показатели по тесту), оценки будут подвержены влиянию «молчаливого согласия». Они будут несколько выше, чем они должны были бы быть благодаря склонности людей соглашаться с утверждениями. По-видимому, каждый окажется более тревожным, чем он есть на самом деле. Само по себе это, может быть, и не является слишком большой проблемой. Если бы можно было установить, что в среднем оценка каждого человека была на два балла выше, чем следовало бы из-за установки на ответ, было бы достаточно просто вычесть это число из оценки каждого индивидуума. На практике не было бы особой необходимости беспокоиться и прибегать к этой процедуре, поскольку корреляции между тестовыми оценками и другими характеристиками не будут меняться в результате вычитания постоянной величины из оценки каждого человека. Тогда в чем же проблема?
Настоящие трудности возникают, если существуют индивидуальные различия в установке на молчаливое согласие. Может быть, некоторые индивидуумы имеют сильную тенденцию соглашаться с утверждениями, в то время как другие полностью свободны от такой установки. Именно это и представляет особую опасность, поскольку оценки индивидуумов по тесту тревожности будут испытывать на себе влияние как самой тревожности, так и склонно-сти соглашаться. Очевидно, тест будет переоценивать показатели
тревожности для индивидуумов, склонных к молчаливому согласию, и в то же время будет совершенно точно характеризовать людей, не имеющих подобной склонности. Именно поэтому большинство личностных тестов содержит утверждения, которые обрабатываются по противоположным направлениям. Если около 50% утверждений формулируется таким образом, что согласие с утверждением предусматривает высокий показатель по черте (например, «я страдаю от нервозности»), а остальная часть формулируется в противоположном ключе («большую часть времени я спокоен и расслаблен»), молчаливое согласие будет оказывать небольшой эффект. При обработке теста любая тенденция к молчаливому согласию будет благодаря этому нейтрализована. К тестам, сконструированным не таким способом, следует относиться с осторожностью. Другой «стиль ответа», который может оказывать воздействие на то, каким образом люди отвечают на утверждения теста, — социальная желательность. Это склонность показывать себя в лучшем свете и отвергать любые варианты поведения и чувств, которые могут быть социально неприемлемы. Утверждения, касающиеся сквернословия, таких свойств, как скупость, агрессивность, наличие чувства юмора, честность, трудолюбие и понятливость, находятся среди тех, на которые может оказывать влияние социальная желательность. Она представляет особую проблему, когда личностные тесты используются для отбора персонала; любой, кто имеет хотя бы чуточку разума, осознает, что при приеме на работу, вероятно, не слишком уместно признаваться в том, что у него случаются галлюцинации, что он нечестен и неряшлив при заполнении личностного опросника и т.п.
Социальную желательность нетрудно измерить. Можно попросить ранжирующих тщательно изучить утверждения в личностных опросниках и решить, в какой степени каждое утверждение подвержено действию социальной желательности. В случаях хорошего согласия между ранжирующими высоковероятно, что социальная желательность будет влиять на вариант ответа, Эдварде (Edwards, 1957) провел такой эксперимент и обнаружил, что имелась существенная корреляция между рангами социальной желательности каждого утверждения в тесте и выбираемым вариантом ответа: люди имеют тенденцию отвечать на вопросы в социально желательной форме.
Как и в случаях молчаливого согласия, это создает серьезные трудности только в том случае, если мы признаем, что одни люди
в большей степени, "чем другие, подвержены социальной желательности, при заполнении личностных опросников. К сожалению, редко удается использовать то же решение для социальной желательности (уравновешивание вопросов теста таким образом, чтобы некоторые социально желательные вопросы имели тенденцию увеличивать оценку по черте, в то время как другие — уменьшать ее). Можете ли вы придумать задание теста, измеряющего тревожность, где вопрос на высокий уровень тревожности оказывается также и более социально желательным по сравнению с вопросом, говорящим о низком уровне тревожности? Поэтому в обычной практике пытаются просто устранить из личностных опросников в процессе их разработки утверждения, уровень социальной желательности которых высок.
Индивидуальные различия в склонности давать социально желательные ответы могут быть измерены с помощью шкалы Крау-на—Марлоу (Crowne, Marlowe, 1964), следовательно, группе индивидуумов можно дать этот опросник наряду с разрабатываемым опросником, в контексте, в котором тот будет использоваться. Если на любое утверждение опросника сильно влияет социальная желательность, ответы на эти вопросы будут существенно коррелировать с оценками индивидуумов по шкале Крауна—Марлоу, Если социальная желательность, наоборот, мало влияет на утверждения, корреляции будут незначительны. Это позволяет выделить те утверждения, которые наиболее сильно подвержены социальной желательности, и рассмотреть затем вопрос об их устранении или
перефразировании в процессе конструирования теста. Способ, который люди используют при заполнении шкал Ли-керта, также может зависеть от некоторых других особенностей их личности. Типичная шкала Ликерта может предложить тестируемому обвести кружком одну из цифр от 1 до 5, когда ранг 1 означает, что испытуемый «полностью не согласен» с утверждением, а ранг 5 подразумевает, что он «полностью согласен» с ним. Несколько лет назад Пол Клайн, Джоун Мей и я заинтересовались разработкой «объективного теста» для измерения авторитарных аттитюдрв. Мы предполагали, что авторитарные типы склонны рассматривать мир в категориях «черное—белое», лишенных любых сомнений и двойственности. По этой причине мы высказали предположение, что при предъявлении 5-балльной ранговой шкалы они, в отличие от контрольных групп, будут обводить в кружок большей частью крайние числа 1 и 5 и значительно реже промежу-
точные позиции. Именно это мы и получили (Cooper et al,, 1986). Таким образом, здесь представлена другая личностная особенность, влияющая на способ, используемый людьми при заполнении шкал Ликерта.
Задание для самопроверки 17.4
Назовите какие-либо переменные, которые могут влиять на характер выполнения личностных тестов.
Факторы, влияющие
на выполнение тестов способностей
Без лишних слов ясно, что условия предъявления теста, по-видимому, оказывают большое влияние на успешность его выполнения, особенно применительно к тестам способностей. Тестирование больших групп нервничающих людей в переполненной душной комнате с высоким уровнем фонового шума — это достаточно очевидный рецепт для неудачного выполнения теста, так же как и любое отклонение от инструкции теста, применения образцов или временных лимитов. Однако в этом разделе мы рассмотрим некоторые другие психологические характеристики индивидуумов, которые также могут влиять на способ обращения с тестами способностей.
Мотивация личности при работе с любым тестом, вероятно, будет оказывать определенное влияние на успешность его выполнения. Поощрение даже очень маленьких детей к успешному выполнению может привести к значительному повышению их опенок по тестам способностей сравнительно с контрольными группами (Brown, Walberg, 1993). Предполагается, что культурные факторы также оказывают большое влияние на успешность выполнения тестов. Если ребенок убежден, что он вряд ли сможет хорошо выполнить тест, то, возможно, он действительно будет плохо выполнять его в силу подверженности влиянию стереотипов (например, Steele, Aronson, 1995). Предполагается также, что важна социальная атмосфера ситуации тестирования и что возраст, пол, уровень тревоги и уровень энтузиазма индивидуума могут влиять на получаемые оценки. Однако, как утверждает Кронбах (Cronbach, 1994), имеется удивительно мало доказательств любых устойчивых различий. Совершенно не обязательно, что чер-
нокожие дети будут выполнять тесты способностей лучше, если психолог.будет черным, а не белым (Jensen, 1980; Sattler, Gwyn-ne, 1987).
Имеется также по-настоящему обширный массив литературных данных по психологии тревоги, возникающей во время тестирования и ее воздействию на успешность. Существует международное общество по изучению этого предмета и даже имеются тесты тревожности, предназначенные для специфических предметных областей, таких, как математика или спорт, так же как и общий тест тревоги (Spielberger, 1980), хотя (с моей точки зрения) мало убедительных доказательств, что тестовая тревога реально отличается от «обычного» состояния тревоги или от черты тревожности. Высокие уровни тревоги оказываются действительно связаны с пониженной успешностью выполнения многих тестов способностей или достижений (например, Schwarzer et al, 1989), однако утверждение на этой основе причинной связи может оказаться опасным. Возможно, что сильная тревога возникает как результат вполне правильной самооценки того, что человек окажется не в состоянии выполнить тест хорошо.
Эффекты практики и тренинга также могут улучшать успешность выполнения тестов при некоторых обстоятельствах, но следует сделать разграничение между теми вмешательствами, которые предназначены для изменения уровня черты, и теми, которые специфичны для одного конкретного измерительного инструмента, например, обучение распределению времени и стратегиям угадывания для теста школьных способностей (тест используется при поступлении в колледж в США). Вмешательства, предназначенные улучшить уровень черт, не ставят больших этических проблем, в то же время попытки улучшить успешность выполнения одного определенного теста, без сомнения, несправедливы по отношению к кандидатам, которым не хватает скрытого знания о том, как тест работает, что делает для них невозможным выбор соответствующей стратегии, или которым не хватает денег, чтобы нанять репетитора. Польза от этого не слишком велика. В случае теста школьных способностей совершенно не ясно, не лучше ли будет время и энергию, отданную изучению «тонкостей теста», потратить на то, чтобы пройти курс повышения математических способностей или ликвидации каких-либо других слабых мест в знаниях (Evans, Pike, 1973). Фундаментальная позиция состоит, конечно, в том, что психологические тесты не должны предаваться широкой гласности, чтобы возможные кандидаты не мог-
ли получить полезные знания таким образом. Вся необходимая информация должна быть, конечно, представлена всем кандидатам только во время предъявления инструкций по тесту.
Те, кто утверждает, что подобные проблемы требуют удаления тестов способностей в психологическую пустыню наряду с френологией и животным магнетизмом, упускают из виду две позиции. Во-первых, если бы эти эффекты были бы столь важны, тесты способностей не могли бы предсказать варианты конкретных форм поведения. Как мы видели, существуют доказательства того, что, несмотря на эти проблемы, тесты способностей могут быть здесь полезными. Во-вторых, они игнорируют руководящие указания, касающиеся «хорошей практики» предъявления тестов. Практически для всех тестов инструкции подчеркивают, что экзаменатор должен использовать свои навыки межличностного общения, чтобы заставить участников чувствовать себя настолько спокойными и защищенными, насколько возможно, стимулировать детей выполнять все наилучшим образом и т.д. Более того, в конце концов все тесты включают несколько Заданий, которые знакомят кандидатов с типами предъявляемых задач, использованием опросного листа и т.д. Таким образом, на практике большинство кандидатов должны чувствовать себя спокойными, иметь необходимую мотивацию и приобретать некоторый опыт, предшествующий основному тестированию.
Помимо этого, некоторые организации в настоящее время предлагают своим кандидатам возможность предварительного самостоятельного тестирования. Например, Государственная служба Северной Ирландии предусматривает типовой отбор, который включает рассылку соискателям детальной выборки заданий психометрического теста, так чтобы они могли попытаться выполнить их сами перед прохождением процедуры психометрического обследования (дополнительное преимущество здесь заключается в том, что индивидуумы, которые набирают очень низкий балл по тестам самопредъявления, могут отказаться от своих притязаний, уменьшая тем самым расходы),
В этой главе обсуждались некоторые проблемы психометрического тестирования, и в особенности понятие смещения, которое недостаточно хорошо понимается как внутри, так и вне психологичес-
|кого сообщества. Мы также коротко рассмотрели и другие переменные, которые могут влиять на успешность выполнения тестов способностей и личностных тестов, и обсудили их важность и последствия для практики тестирования.
Предложения по дополнительному чтению
Книга Арта Дженсена Проблема смещения в психологическом тестиро-6 вании (Bias in Mental Testing, Jensen, 1980), с моей точки зрения, — одна из наиболее интересных из числа когда-либо написанных работ по психометрике. Она содержит превосходные разделы по анализу природы смещения тестовых оценок, их обнаружения и может быть с полным основанием рекомендована. Две более ранние главы покойного П. Вернона (глава 20 (Vernon, 1979) и глава 12 (Vernon, 1963)) все еще заслуживают внимания, и еще раз подчеркнем, что образцовые тексты Кронбаха (Cronbach) и Анастази (Anastasi), так же как и некоторые тексты по психологии труда, содержат плодотворное обсуждение влияния тревоги, мотивации и различных установок на успешность выполнения тестов.
Ответы на задания по самопроверке
17.1. (а) Оценки по тестам интеллекта.
17.2. (а) Использование теста приведет к тому, что для работы в организации будет отобрано больше женщин, чем мужчин.
(б) Важно помнить, что претенденты на определенную должность не образуют случайную выборку людей. Такие факторы, как географическое местоположение бизнеса, особенности конкурирующих видов бизнеса, воспринимаемые шансы получить работу, структура разделенной системы образования, переселение, семейные традиции найма на работу и т.д., могут взаимодействовать со способностями, обеспечивая весьма искаженную выборку. Например, если в какой-либо географической области имеется известный работодатель, который принимает на работу большое число женщин-соискательниц с высоким IQ, другие предприниматели этой области могут прекратить принимать на работу отвергнутых соискателей.
(в) Постройте график критериальной успешности по успешности теста для обеих групп и проверьте, имеют ли две линии одинаковые высоту и наклон. Также проверьте надежность теста внутри каждой группы и выявите признаки внутреннего смещения. Если обнаружите какие-либо задания, вносящие искажения, удалите их и пересчитайте коэффициенты валидности. Пролистайте публикации, чтобы установить, имелись ли сообщения других исследователей со сходными результатами при использовании такого же теста и такого же критерия. Если все окажется ошибочным, попытайтесь использовать другой тест.
17.3. Женщины, имеющие низкий уровень способностей, действуют хуже, чем мужчины с низким уровнем способностей, но женщины, имеющие высокий уровень способностей, превосходят вы-сокослособных мужчин по этому тестовому заданию. Оно обнаруживает существенные признаки смещения, несмотря на то что одинаково трудно и для мужчин, и для женщин.
17.4 Кроме личностной черты, которую тест стремится измерить, ответы будут испытывать на себе влияние социальной желательности, склонности к молчаливому согласию и к реагированию по принципу крайняя позиция/консерватизм, хотя могут быть важны и другие переменные (например, восприятие индивидуумом причины тестирования).
КОНСТРУИРОВАНИЕ НАДЕЖНОГО ТЕСТА
Общая картина
Эта глава включена в книгу по двум причинам. Во-первых, возможно, что читатели на каком-то этапе могут изъявить желание разработать свою собственную шкалу, и поэтому кажется уместным предложить некоторые руководящие указания по поводу того, как можно конструировать задания и организовывать их в надежную шкалу, хотя я возражаю против этого и объясню почему: я думаю, что в психологии существует уже слишком много тестов. Во-вторых, в данной главе показано, почему невозможно просто собрать задания и считать, что они формируют надежную и валидную шкалу. Предложены также некоторые подходы к тому, как сконструировать тест без использования факторного анализа.
Главы, рекомендуемые
для предварительного чтения
1, 11, 13 и 17.
Введение
Эта глава включена на случай, если читатели либо заинтересуются тем, как конструируются тесты, либо у них возникнет желание разработать свою собственную шкалу для измерения какой-либо черты личности или способностей. Пожалуйста, не делайте этого! По моему опыту, большинство студентов, которые решают конструировать шкалы, не представляют себе, какая огромная работа требуется для их разработки, уточнения и валидизации.
Многие читатели будут сталкиваться с тестами, весьма отли-чающимиря от тех, которые были описаны в этой книге. В особенности социальные психологи измеряют несколько параметров личности, весьма отличных от черт, обсуждавшихся в главах 5, 6 и 8, и у читателей может возникнуть вопрос, почему я до сих пор не обсуждал локус контроля, самооценку и т.п. Проблема заключается в том, что большинство из этих тестов просто недостаточно отработаны. Некоторые (например, показатели локуса контроля), по-видимому, вообще измеряют не черту, а являются ситуативно-специфичными (Coombs, Schroeder, 1988). Еще хуже то, что, когда эти задания подвергаются факторному анализу, они редко формируют единственную шкалу. Многие (если не большинство) из этих тестов измеряют сочетания нескольких отдельных личностных черт, которые, как мы видели в главе 13, делают их интерпретацию почти невозможной.
Если бы случилось невероятное и я стал бы диктатором, мой первый указ был бы следующим: «Для каждого психолога наказуемым проступком является публикация любой шкалы, если более чем 70% надежной вариативности этой шкалы может быть предсказано существующими тестами». Другими словами, я совершенно убежден в необходимости доказать, что любой новый тест открывает некоторые аспекты личности или способностей, которые действительно весьма отличаются от любой комбинации черт, которую мы уже знаем и понимаем. Иначе тесты будут просто размножаться. Одна шкала будет измерять две части экстраверсии и одну часть нейротицизма. в то время как другая будет измерять две части экстраверсии и одну часть психотицизма. Вокруг этих личностных измерений будут построены громоздкие теории, затем у кого-либо возникнет яркая идея прокоррелировать эти два теста друг с другом, и (поскольку оба они измеряют в какой-то степени экстраверсию) корреляция будет большой и положительной. Волнение побежит по журналам, прославятся имена, и возникнут еще более усложненные теории, объясняющие то, что нам, просто мыслящим психометрикам, кажется достаточно очевидным.
Однако в этом описании должно быть какое-то заблуждение, поскольку большинство психологов придерживаются совершенно противоположной точки зрения и размножение тестов продолжается, несмотря на доказательства, часто дающие основание считать, что это не слишком хорошая идея. Рассмотрим тесты, измеряющие самооценку, — понятие, широко используемое в социальной психологии. Существуют доказательства (собранные вместе
в книге Клайна (Kline, 1993, ch. 20)), что тесты, претендующие на измерение самооценки, в действительности просто характеризуют смесь тревожности (или нейротицизма) и экстраверсии. Поскольку трудно представить, почему любой психолог должен хотеть измерять смесь двух различных черт в одном тесте, продолжающееся использование этих шкал всегда вызывало определенное недоумение у Клайна. Вполне допустимо объединять показатели из нескольких различных шкал; например, если есть необходимость выделить умных невротиков, это делается сложением стандартизованных показателей индивидуумов по тестам, измеряющим общие способности и нейротицизм. Дело в том, что, поступая таким образом, пользователи тестов вынуждены осознавать, какие черты реально подвергались оцениванию, а не выстраивать сложные теории по поводу того, что они ошибочно воспринимают как совершенно новые аспекты индивидуальных различий.
Тесты также широко внедряются в психологию труда, но по иным причинам. Не исключено, что в этой области «новые» шкалы могут быть проданы за поразительно большие суммы денег даже до того, как они будут должным образом валидизированы. И снова я не могу понять, почему пользователи хотят применять тесты способностей или личностные тесты, которые просто заново изобретают колесо или (что еще хуже) измеряют сочетание уже хорошо понятых черт, поскольку, как следует из главы 13, значение показателей психологической шкалы можно интерпретировать только в том случае, если все задания измеряют одну и ту же черту.
Несмотря на эти устрашающие предупреждения, полезно знать преимущества (и недостатки) нескольких методов разработки шкал, чтобы любой мог понять и оценить достоинства публикуемых тестов. Все они применяются к тестам, которые измеряют черты и не имеют временного ограничения (чтобы каждый человек имел время попытаться ответить на все вопросы). Последний пункт очень важен, поскольку последние задания всегда оказываются трудными и, если предлагаемый лимит времени ограничен, многие кандидаты только по этой причине не будут даже пытаться их выполнить.
Подготовка заданий теста
Очевидно, что написание заданий — решающий шаг в разработке теста. Если они написаны плохо, то никакая психометрическая мудрость не сможет обеспечить надежную и валидную шкалу.
Клайн (Юте, 1986) дает некоторые основанные на здравом смысле эмпирические правила для написания заданий, и я буду опираться на эту работу в следующих трех разделах. У вас может также возникнуть желание заново проверить руководящие указания вашей профессиональной ассоциации по конструированию и использованию психологических тестов, которые могут напоминать рекомендации, представленные в приложении Б. При формировании тестовых заданий необходимо иметь в виду следующие основные положения:
• Задания должны быть соответствующим образом подобраны и касаться каждой отдельной стороны концепта. Арифметический тест не должен базироваться только на задачах на «сложение». Опросник по диагностике депрессии должен включать вопросы, касающиеся разных видов поведения (например, нарушения сна или привычек питания), так же как и чувств. Было бы целесообразно составить список основных граней оцениваемого феномена и написать равное число заданий, затрагивающих каждую грань. Например, учитель может принять решение оценивать арифметические способности на основе умения выполнять деление и умножение письменно в столбик, решать геометрические/тригонометрические задачи, системы уравнений, находить корни квадратные уравнений, производить дифференцирование и интегрирование. Очень часто необходимо будет провести литературный, поиск (или изучить диагностические руководства — такие как Диагностическое статистическое руководство по психическим расстройствам, DSM-IV), чтобы убедиться, что у вас есть полное и законченное понимание предмета, который должен быть оценен.
• Тест должен быть достаточно длинным для гарантии того, что он охватывает все аспекты изучаемого предмета, и надежным. В соответствии с эмпирическими правилами вы можете начать по крайней мере с 30 заданий и уменьшать их количество не менее чем до 20 заданий, хотя, если в изучаемом предмете существует много граней, вы можете нуждаться и в большем их количестве.
• Каждое задание должно оценивать только ту черту, для измерения которой оно предназначено, иначе говоря, ответы на задания не должны зависеть от индивидуальных различий в словарном запасе, социальной желательности (или
других переменных, упоминавшихся в главе 17) или от любых иных черт.
• Должно быть тщательно проанализировано соответствие каждого задания данной культуре. В обычном случае это включает имплицитное знание, требуемое для понимания (или решения) проблемы. В примере с арифметическим тестом учитель допускает, что все дети будут в состоянии складывать, вычитать, умножать, делить и понимать порядок выполнения арифметических операций в уравнениях и т.д.
• Важно обеспечить, чтобы задания были логически независимы. В случае личностных тестов убедитесь в том, что, если логически последовательный человек отвечает на какое-либо задание определенным образом, это не «принуждает» его давать какой-либо определенный ответ на любые другие задания. Другими словами, два задания не должны иметь в виду одно и то же. В случае тестов способностей вам не следует основывать одно задание на ответе на предыдущее задание, например: «Задание 1: Сколько будет 2 + 3 ?», «Задание 6: Сколько будет, если ответ на задание 1 умножить на 4?»
• Вы могли понять, что проблема семантической зависимости заданий в личностных шкалах интересует меня особенно сильно. Очень легко создать шкалу с высоким уровнем надежности, перефразируя одно и то же задание несколько раз. Но это искусственная шкала, поскольку задания не отобраны должным образом из всей интересующей области. Поэтому я бы настоятельно советовал формирующим задания исследовать каждую возможную пару их и проверить, не принуждает ли способ, который использует человек, отвечая на одно задание, отвечать на другие определенным образом, обусловленным чем-либо иным, кроме черты, которую тест призван измерять.
Подготовка заданий для тестов способностей
Определите формат ответа, например, открытый (2 + 2 = ?) или множественного выбора [2 + 2 = (а) 4, (б) 22, (в) 5, (г) 3], и, если выбран формат множественного выбора, определите, сколько альтернатив следует предложить. Должно быть предложено по крайней мере четыре альтернативы, чтобы уменьшить эффекты «удачного угадывания».
Напишите равное-количество заданий по каждой теме. При использовании формата множественного выбора постарайтесь сконструировать хорошие, правдоподобные дистракторы (возможно, основывающиеся на анализе ошибок из других тестов) и попытайтесь обеспечить, чтобы задания по каждой теме имели сходные и соответствующие диапазоны трудности.
Убедитесь, что не поддались соблазну проверять нечто незначительное только потому, что это легко сделать. Например, если вы разрабатываете тест для опенки статистических способностей студентов, самый легкий тип заданий, который можно написать, касается формул и определений, например: «Как выглядит уравнение для вычисления стандартного отклонения значений в данной выборке?» Проблема, однако, заключается в том, что преподаватель должен быть заинтересован в проверке того, насколько хорошо студенты понимают и могут применять эти понятия, — повторение определения в подражание попугаю редко оказывается целесообразным. Другой хороший пример — тест, направленный на оценку навыков вождения. Я могу вспомнить, как учил и повторял длину тормозного пути, хотя оказалось, что экзаменаторы никогда не проверяли, знали ли обучающиеся, когда они вели машину, каковы в действительности эти дистанции.
Галликсен (Gulliksen, 1986) опубликовал превосходную, без излишних технических подробностей работу по оценке способностей и достижений. В ней приводится несколько других форм тестовых заданий, и ее прочтение является принципиально важным для любого, кто заинтересован в конструировании тестов в этой области в целом.
Дата добавления: 2015-03-03; просмотров: 599;