Актуальность технического обслуживания 17 страница

Рi (правильно (уравнение 16.2),

и, таким образом, вероятность того, что человек, имеющий способности (и), равные 3,0, ответит правильно на задание, имею-

щее трудность (Ц), равную 2,0, и показатель дискриминации (а), равный 0,5, будет составлять:

Pi (правильно

Не следует удивляться, узнав, что эта функция называется двух-параметрической логистической функцией, в которой два параметра определяют каждое задание — показатели дискриминации (аi) и трудности (bi).

Окончательный вариант логистической модели очень полезен в тех случаях, когда испытуемым предъявляется тест множественного выбора. Представьте себе, что испытуемых попросили выбрать правильный ответ из четырех возможных. Ясно, что испытуе-|мый, имеющий очень низкий уровень способностей, угадает правильный ответ (при условии, что четыре альтернативы равно привлекательны) с вероятностью приблизительно 25%, и, таким образом, уровень ХКЗ не должен иметь вероятность, равную 0, а должен находиться на уровне, в большей степени соответствующем указанному выше. Проблема состоит в том, что мы не можем принять утверждение, согласно которому эта величина будет точно равна 0,25, поскольку на практике различные (неправильные) альтернативы не будут обладать абсолютно равной привлекательностью для тех, кто проходит тестирование. Поэтому более предпочтительным будет использование фиксированной величины типа 1/п (где п — число предлагаемых альтернатив), с ее помощью можно точнее установить для каждого задания лучшее положение точек перегиба. «Трехпараметрическая логистическая модель» позволяет нам, таким образом, принимать в расчет вероятность угадывания. Ее вид таков:

где, как и прежде, а. представляет показатель дискриминации задания, bt — его трудность, а с;. представляет вероятность, с которой респондент, имеющий очень низкий уровень способностей, ответит на это задание правильно. На рис. 16.5 показаны три ХКЗ: одна с величинами д. = 1,0; Ъ. = 0,5 и с. = 0,2, другая с величинами

Рис. 16.5, Три характеристических кривых заданий для трехпараметри-ческой модели.

а.i ~ 0,5; bi — 1,0 и ct — 0,25 и третья — с величинами at = 2,0; bt = 0 к с, «0,125.

Вы можете видеть, как каждая кривая растягивается с левой стороны до значения с., которое, разумеется, допускает вероятность «везения в угадывании». Вам следует с осторожностью устанавливать уровень трудности заданий при работе с трехпарамет-рической моделью, поскольку в этой модели начало ХКЗ не совпадает с вероятностью, равной 0. Если кривая начинается на уровне 0,3 и уплощается при значении, равном 1,0, уровень трудности задания обозначается точкой, в которой вероятность реше-

1,0-0,3 ния задания 0,3 + ——— = 0,65.

Вы могли заметить, что каждая из формул, приведенных выше, представляет небольшое усовершенствование предшествующей. Так, если мы приравняем с. к 0 в уравнении 16.3, то получим уравнение 16.2. Если мы также примем показатель дискриминации задания я, равным 1,0, тогда мы получим уравнение 16.1.

В этом разделе были введены три математические модели, которые, как можно обоснованно ожидать, описывают связи между способностями человека и его вероятной успешностью при решении отдельных заданий теста. Двухпараметрическая модель, воз-

можно, является наиболее подходящей для данных, полученных в тестах свободных ответов, в то время как трехпараметрическая модель может быть полезна в случаях, когда предъявляются тесты множественного выбора. Мы показали, что довольно просто установить вероятность правильного ответа на любое задание при условии, что известны параметры задания и способности человека. Основная цель теории сложности заданий состоит в том, чтобы реализовать эту логику в обратном порядке. Получив ответы индивидуумов на задания теста, теория заданий пытается установить наиболее вероятные значения:

• одного, двух или трех параметров, связанных с каждым заданием, и

• способностей каждого человека.

Определение способностей и параметров задания

Как упоминалось выше, основная цель теории сложности заданий — установить уровень трудности каждого задания в тесте и (одновременно) оценить способности каждого человека, проходящего тестирование. Таким образом, если тест состоит из 20 заданий и анализируются ответы 100 детей, нам необходимо установить 20 показателей трудности заданий, 100 показателей способностей по однопараметрической модели плюс 20 показателей дискриминации, если мы применяем двухпараметрическую модель, и дальше плюс 20 индексов угадывания, если мы выбираем трехпараметри-ческую модель. Каким образом мы должны все это выполнить?

Одна возможность заключается в том, чтобы просто взглянуть на данные. В табл. 16.1 представлены ответы восьми испытуемых на пять заданий теста. «Правильный» ответ обозначается 1, а неправильный — 0.

Упражнение

Потратьте около 5 минут, рассматривая данные в табл. 16.1. Постарайтесь выделить самое трудное и самое легкое задания, а также наиболее способного и наименее способного из испытуемых.

Таблица 16.1 Оценки восьми испытуемых по пяти заданиям теста

	Задание 1	Задание 2	Задание 3	Задание 4	Задание 5
Джеймс
Шэрон
Брайан			Л
Линда
Майкл
Сьюзен
Уильям
Фиона

Кажется вероятным, что если мы игнорируем уровни трудности отдельных заданий, то Шэрон и Брайан (с четырьмя правильно решенными заданиями) имеют более высокие оценки по обсуждаемому признаку по сравнению с другими, а Уильям, Линда и Сьюзен имеют низший балл (по одному правильному ответу). Теперь рассмотрим колонки. Какие задания кажутся наиболее трудными? Только один человек (Брайан) ответил правильно на задание 5 и только двое (Джеймс и Шэрон) ответили правильно на задание 4, поэтому логично предположить, что эти два задания — наиболее трудные, а задание 3 (которое только два человека не смогли решить правильно) — легкое.

Теперь рассмотрим способности людей, принимавших участие в решении теста. Оба — и Шэрон, и Брайан — имеют общую оценку 4, и, согласно классической теории тестов, следует считать, что они имеют равные способности. Однако вы можете видеть в табл. 16.1, что это допущение излишне упрощает ситуацию, поскольку мы утверждали раньше, что задание 5 несколько сложнее, чем задание 4. Брайан, таким образом, справился с ответом на более сложное задание правильно, но не смог решить более простое. Шэрон ответила на более легкий тест правильно, но не смогла решить более сложный. Поэтому кажется оправданным считать, что Брайан должен иметь более высокую оценку по этой черте, чем Шэрон.

Упражнение

Сравните оценки, полученные Джеймсом и Фионой. Как вы думаете, кто'из них более способный и почему?

Критический пункт, который необходимо иметь в виду в этом случае, состоит в том, что, когда мы оцениваем уровень трудности заданий, мы пытаемся учитывать способности респондентов, и наоборот. Приблизительным и неформализованным способом мы пытаемся установить (разумеется, разобравшись в сути дела) -будет ли оценка способностей человека независимой от уровня трудности заданий теста, которые предъявлялись. Подобным образом мы пытаемся установить трудность каждого задания, принимая в расчет различия в способностях респондентов.

Принципиально важно помнить следующее положение: теория сложности заданий ставит целью измерять способности независимо от трудности конкретных заданий, которые предъявлялись. Она также стремится установить параметры задания — трудность/ дискриминацию/угадывание — способом, который совершенно не зависит от особенностей выборки индивидуумов, которым пришлось проходить тестирование. Это значительно контрастирует с классической теорией тестирования, в которой оценка человека рассматривается как показатель его способностей, и это полностью смешивается с различиями в трудности заданий теста. Один и тот же показатель может быть получен высокоспособным студентом, которому предъявлялись трудные задания теста, или студентом с низким уровнем способностей, которому предъявлялись легкие задания.

Выше я доказывал, что характеристическая кривая задания (ХКЗ) показывает вероятность выполнения определенного задания теста индивидуумами с различными уровнями способностей. По-видимому, можно написать компьютерную программу, которая проводила бы грубую прикидочную оценку способностей различных людей (возможно, на основе количества правильно выполненных заданий) и затем, зная эти способности, устанавливала бы уровни трудности каждого задания. Тот же процесс можно было бы в последующем повторить в обратном порядке, когда способности студентов устанавливаются на основе статистических данных о трудности заданий. Этот процесс можно было бы повторять раз за разом, добиваясь лучших оценок способностей и параметров задания на каждой стадии до тех пор, пока оценки спо-

собностей студентов и трудности заданий дальше уже нельзя будет улучшить. Другими словами, такая программа могла бы попытаться найти наиболее подходящие величины для всех параметров задания и способностей. Сваминатан ч Гилфорд (Swaminathan, Clifford, 1983) показали, что, когда количество заданий и испытуемых достаточно велико, оценки параметров, получаемых таким способом, весьма близки к их подлинным значениям в одно-и двухпараметрической моделях, но в трехпараметрической модели это весьма проблематично.

Представленная подобным образом, эта процедура выглядит довольно просто, хотя статистическое и численное установление этих параметров может быть чрезвычайно сложным процессом. Вам не следует слишком беспокоиться по поводу деталей. Для выполнения подобного анализа было написано несколько компьютерных программ. LOGIST (Wingersky et al.t 1982), RASCAL, RSP, XCalibre ASCAL (Assessment Systems Corporation, 1989) являются программами, которые пытаются установить эти личностные параметры и параметры заданий с помощью разнообразных методов. Важным моментом, который необходимо усвоить, является то, что эти программы могут одновременно оценивать и способности индивидуумов, и параметры различных заданий. Они также обеспечивают статистику, которая показывает, насколько близко определенная модель соответствует полученным данным, например, они позволяют определить, будет ли адекватной двухпараметри-ческая логистическая модель или необходимо также вычислить параметры угадывания для каждого задания.

Продемонстрировать, что эти программы действуют в значительной степени так же, как и анализ, основанный на нашем здравом смысле, можно, обратившись к табл. 16.2. Она представляет оценки способностей и трудности заданий, которые были получены при анализе данных, взятых из табл. 16.1, с использованием двухпараметрической логистической модели. ХКЗ, соответствующие данным табл. 16.2, представлены на рис. 16.6. Не принимайте эти результаты слишком серьезно — обычно считается необходимым основывать такой анализ на выборках из нескольких сотен человек и на тестах, включающих более пяти заданий.

Однако из табл. 16.2 действительно следует, что программы, по-видимому, дают результаты, которые в широком плане соответствуют нашим предшествующим ожиданиям. Вам следует самим убедиться, что результаты таблицы совпадают с нашим более ранним «визуальным» анализом данных.

Рис. 16.6. Характеристические кривые заданий, данных в табл. 16.2.

Таблица 16.2

Оценки трудности заданий и способностей по данным,

представленным в табл. 16.1, базирующиеся на

двухпараметрической логистической модели

	Способности	Задание	Трудность	Дискриминация
Джеймс	0,424		-0,534	1,440
Шэрон	0,915		-0,531	1,004
Брайан	1,026		-0,956	1,609
Линда	-0,943		0,970	1,317
Майкл	-0,376		1,474	1,565
Сьюзен	-0,733
Уильям	-0,79
Фиона	0,264

Заканчивается этот раздел предостережением. Как и многие другие статистические методики, программы, которые оценивают параметры заданий и способности, почти всегда выдают только

ответы, и среди пользователей существует сильно выраженная тенденция просто сообщать эти ответы, не слишком заботясь о том, насколько выбранная модель (т.е. одно-, двух- или трехпараметри-ческая логистическая модель) действительно соответствует полученным данным. Если такого соответствия нет, тогда все, что мы говорили выше об инвариантности (независимости) способностей относительно параметров задания, просто оказывается неприменимым и задания теста будут непригодны. Хэмблтон с соавторами (Hambleton et а/., 1991, ch. 4) представляет хорошее обсуждение этого принципиально важного вопроса.

Преимущества

теории сложности заданий

Замечательной особенностью теории сложности заданий является то, что оценки способностей индивидуумов отделены от характеристик (сложности, дискриминации и угадываемости) конкретного набора заданий, который предъявлялся. Мы ожидаем получить совершенно те же оценки способностей, независимо от того, какие именно наборы заданий предъявлялись испытуемым. Это очень непохоже на традиционное тестирование, в котором тестовые оценки можно интерпретировать только по сравнению с нормами, получение которых является дорогостоящей процедурой, кроме того, трудность задания и т.п. также зависит от характеристик выборки, которой предъявляется тест.

Например, представим себе, что задание словарного теста предъявлялось случайной выборке людей. Мы можем обнаружить, что правильно отвечают на задание 50% выборки. Теперь вообразите себе, что мы присоединили к выборке довольно большое количество студентов университета — людей с высоким уровнем способностей, большинство из которых смогут ответить на задание правильно. Поскольку выборка включает непропорционально большое количество испытуемых с высоким уровнем развития вербальных навыков, мы можем теперь обнаружить, что во второй выборке правильно ответят на задание 80% испытуемых. Таким образом, традиционные показатели трудности задания (р-значе-ния) могут изменяться соответственно составу выборки. С теорией сложности заданий такого не случается. При условии, что в выборке существует хорошее распределение способностей, оцен-

ки трудности задания совсем не будут зависеть от того, сколько испытуемых приходится на каждый уровень способностей. Именно это и означает — оценить трудность задания независимо от способностей. Точно такая же логика сохраняется и для других показателей задания — дискриминации (а) и угадывания (с.). Это делает весь процесс конструирования теста намного более легким, поскольку исчезает необходимость тратить время на прослеживание случайных выборок испытуемых, в которых производится оценка параметров задания. Любая удобная группа людей подойдет при условии, что в ней имеется необходимый разброс способностей. Количество же людей, находящихся на каждом уровне способностей, не будет влиять на оценки параметров задания.

Что можно сказать о процессе оценивания способностей индивидуумов на основе заданий теста? В значительной степени то же самое. Используя теорию сложности заданий, мы можем предъявлять любой подходящий набор заданий, чтобы получить оценки способностей респондентов, при условии, что все характеристические кривые заданий не собираются в пучок в одной точке, т.е. при условии, что некоторые из заданий различаются на каждом уровне способностей. Если дело обстоит так (как оно обычно и бывает при условии, что задания значительно варьируют по трудности и имеют низкие или умеренные параметры дискриминации), можно оценить способности респондентов, совсем не беспокоясь по поводу количества заданий на каждом уровне трудностей.

Когда оценка способностей проводится с помощью традиционного теста, где количество заданий, на которые были получены правильные ответы, определяет оценку способностей респондентов, очевидно, что количество легких и трудных заданий в тесте будет влиять на оценки способностей. Респонденты, выполняющие тест, в котором большинство заданий легкие, будут получать более высокие общие оценки," чем респонденты, выполняющие тест, в котором большинство заданий трудные. Это не составляет проблему для показателей способностей, получаемых в теории сложности заданий. Поскольку эти показатели способностей статистически отделены от показателей трудности заданий теста, число вопросов на каждом уровне трудности реально не имеет значения.

Тем не менее некоторые задания оказываются более полезными по сравнению с другими для сбора информации о способно-

стях конкретного человека. Рассмотрим рис. 16.7. Представьте себе, что кто-то не выполнил задания С и D, но справился с заданиями А и В. Кажется закономерным предположить, что способности испытуемого находятся где-то между 0 и 1, но будет трудно установить точно, где именно, поскольку в этом диапазоне способностей вероятность правильного ответа испытуемого на любые задания в каждом случае очень близко приближается либо к 1, либо к 0. Следовательно, должна быть значительная по величине ошибка измерения, связанная с оценкой способностей в этом диапазоне.

Можно показать, что задания теста, уровни трудности которых более всего соответствуют способностям человека, задания, которые имеют крутые наклоны (т.е. высокие параметры дискриминации) и у которых параметр угадывания оказывается наиболее низким, обеспечивают наиболее полную и точную информацию о способностях респондента. Лорд и Новик (Lord, Novick, 1968) показали, что можно вычислить «информационную функцию задания», статистическую характеристику, описывающую диапазон способностей, для которого каждое задание обеспечивает полезную информацию. Если вы когда-либо захотите вычислить ее, то формула такова:

где левая часть уравнения читается; «информация, полученная с помощью задания i (имеющего показатели дискриминации, трудности и угадывания аi, bi, и сi)при уровне способности г?». Таким образом, если мы установили три параметра задания, мы можем теперь выяснить, насколько вероятно получить какую-либо полезную информацию об определенном уровне способностей. Более того, достаточно легко установить уровень способностей, при котором определенное задание выдает наибольшую информацию о способностях.

Следовательно, если бы мы вычислили информационную функцию для четырех заданий, представленных на рис. 16.7, это показало бы, что ни одно из них не способно дать существенную информацию в интервале от 0 до 1. Таким образом, информационные функции заданий являются удобным способом вычисления

Рис. 16.7. Четыре ХКЗ, дающие мало информации о способностях в диапазоне между 0 и 1.

того, что очевидно из рис. 16.7: чтобы получить точные оценки способностей, требуются сильно различающиеся задания с уровнями сложности, близкими к подлинному уровню способностей человека, проходящего тестирование. Установление уровня способностей человека включает определение того, какие задания (известной трудности и т.д.) он может обычно выполнить правильно и какие ему точно не удастся выполнить. Уровень его способностей находится где-то между показателями трудности этих двух наборов заданий. Отсюда следует, что как очень трудные, так и очень легкие задания скажут нам о подлинных способностях человека немного. Но задания, которые подвергают человека испытанию на пределе возможностей, позволяют нам точно установить, каковы его способности.

Адаптивное тестирование

Традиционные тесты способностей обычно адресуются относительно узкому диапазону оценок способностей, чтобы избежать возникновения у респондентов чувства подавленности, когда предъявляется много очень трудных заданий, или скуки при столкновении с большим количеством слишком легких заданий. Бла-

годаря этому пользователи традиционных тестов оказываются в парадоксальной ситуации, когда им необходимо угадать способности своих респондентов заранее, чтобы иметь возможность выбрать тест соответствующей трудности! Даже в этом случае менее способные респонденты, по-видимому, постоянно сталкиваясь с чередой заданий, которые они не смогут решить, утрачивают мотивацию, в то время как высокоспособные респонденты могут испытывать чувство раздражения из-за того, что им задают вопросы, которые (с их точки зрения) являются раздражающе легкими. Теория заданий предлагает намного лучшую альтернативу, известную как «адаптивное тестирование».

Представим себе, что большое количество заданий предъявляется большой выборке испытуемых с широко варьирующим уровнем способностей — это не должна быть случайная выборка. Параметры заданий устанавливаются с помощью одной из программ, упоминавшихся выше, возможно, использующих двухпа-раметрическую или трехпаhаметрическую логистическую модель. Предположим также, что выбранные модели обеспечивают хорошее общее соответствие данным. Теперь мы располагаем большими возможностями, поскольку сравнительно просто перевести задания теста в компьютер и написать компьютерную программу, которая будет предъявлять испытуемому по одному заданию теста за один раз.

Сначала мы можем предъявить задание небольшой или умеренной трудности. Если конкретный респондент окажется не в состоянии выполнить его правильно, можно выбрать другое, более легкое. Если испытуемый ответит на него правильно, программа может идентифицировать более трудную задачу, используя информационную функцию задания, чтобы определить, какие задания будут давать максимальную информацию о способностях человека, — и это будет продолжаться до тех пор, пока программа, наконец, точно не определит, какие задания испытуемый может выполнить правильно, а какие (более трудные) ему просто не по силам. По мере того как будет собираться все больше и больше данных, компьютерная программа сможет предугадывать с возрастающей точностью, какие из еще не использованных заданий испытуемый будет способен выполнить правильно, а какие выполнить не удастся. Такая процедура позволяет установить способности человека очень быстро. Опыт проведения такого рода тестов показывает, что задания обычно должны быть близки к пределу

возможностей испытуемого, но не невыполнимы, и поскольку никого не .принуждают «продираться» через слишком большое число заданий (чересчур трудных либо чересчур легких), чтобы получить информацию о способностях, вся процедура тестирования может быть резко сокращена.

Имеются другие преимущества. Поскольку каждый испытуемый, вероятно, будет получать совершенно разный набор заданий теста (так как выбор задания, предъявляемого на каждой стадии, зависит от правильности ответов респондентов на предыдущей стадии), проблема сохранения конфиденциальности тестирования становится значительно менее актуальной, особенно если первоначальное задание было выбрано более или менее случайно. Каждый человек будет проходить свой собственный, сформированный именно для него тест. Из того, что вы уже знаете об оценке способностей на основе параметров теста, должно быть ясно, что не имеет значения нестандартизованность теста, т.е. тот факт, что различные респонденты будут выполнять весьма различающиеся задания теста, поскольку суждение о способностях может быть вынесено на основе выполнения любого набора заданий.

Резюме

Существует два основных подхода, которые могут быть прослежены при конструировании психологических тестов. Один из них использует довольно простую и ясную модель — это классическая теория тестирования. В ней общий балл берется как показатель способностей, и проблемы, которые возникают благодаря этому, усугубляемые различиями в трудности заданий, в значительной степени устраняются использованием норм при интерпретации оценок теста. Это простая модель, которая хорошо служила в течение последних пятидесяти лет, хотя мне всегда казалось в высшей степени странным, что классическая модель конструирования теста не уделяет какого бы то ни было внимания природе трудностей задания, установлению различий между заданиями или попыткам респондентов угадать правильный ответ в тестах множественного выбора. Трудности заданий никогда явно не выделялись в тесте, который конструировался на основе классической теории. Задания крайней трудности не будут обнаруживать тенденцию коррелировать с другими заданиями и, следовательно, будут элиминированы

26*

в процессе анализа заданий. Однако существует почти святая вера в то, что распределение трудности заданий и показатели дискриминации для остальной части заданий окажутся пригодными для всей популяции.

Теория сложности заданий адресуется другому полюсу. Она делает несколько довольно сильных допущений по поводу связей между способностями и успешностью выполнения заданий теста индивидуумом, и (если эти допущения действительно обоснованны) оказывается возможным отделить способности респондентов от трудностей выполнения заданий. Это имеет всевозможные преимущества для компьютеризованного адаптивного тестирования, а методика может также оказаться полезной в других вариантах приложения, таких, как идентификация искажений в заданиях теста. Однако что будет, если одно (или более) задание окажется не соответствующим тестируемой модели? Следует ли удалять такие задания или нужно попытаться разработать альтернативу логистическим моделям, которая может лучше соответствовать таким заданиям?

Существует несколько практических трудностей, связанных с конструированием теста с помощью теории сложности заданий. Мощные компьютеры, необходимые для того, чтобы установить параметры задания и личности для наборов данных ощутимых размеров, стали свободно доступными только в последние десять лет или около того, и это могло затормозить развитие таких измерений. Могут существовать и юридические проблемы, такие, как недавний проект законодательства США, в соответствии с которым любой индивидуум, проходящий тестирование, должен быть в состоянии вычислить свою собственную оценку при условии, что он знает свои ответы. На практике люди, не являющиеся специалистами, сочтут это трудным. Более того, поскольку лежащая в основе теория намного сложнее, чем классическая теория тестирования, прикладные психологи могут с неохотой тратить время и усилия на овладение ее принципами и (если мой опыт типичен) могут откровенно скептически относиться к возможности теории заданий устанавливать способности, независимо от характеристик отдельных заданий теста. Психодиагносты также выражают беспокойство по этому поводу. Насколько я могу судить, не существует убедительных математических доказательств того, что экспериментально установленные оценки задания и характеристики испытуемого в полной мере соответствуют оценкам их истинных

значений. Эмпирические доказательства дают основание предполагать, что при определенных условиях это возможно, но достаточно ли этого на самом деле? И как адекватность выбора модели определяет способность теории заданий отделить характеристики личности от характеристик задания? Будет интересно увидеть, станет ли психологическое тестирование XXI в. синонимом предъявления адаптивных тестов на портативных микрокомпьютерах?

Предложения по дополнительному чтению

Очевидной рекомендацией здесь служит работа Хэмблтона с соавторами (Hambleton et ol, 1991). Она представляет собой введение в теорию сложности заданий и адаптивного тестирования, которое в более полном объеме дает все положения, представленные выше. Хэмблтон и Свамина-тан (Hambleton, Swaminathan, 1985) значительно большее внимание уделяют деталям, а Лорд и Новик (Lord, Novick, 1968) представляют стандартный текст для математически подготовленных читателей. Журнал прикладных психологических измерений (Applied Psychological Measurement) публикует множество статей по теории сложности заданий и ее практическому применению.

Ответы на задания по самопроверке

16.1. (а) 2; f - 0,8 = 0,2; 1 - 0,7 - 0,3; 1-----~- = °'15-

(б) Поскольку оценка способностей будет зависеть от ответа только на одно задание, удачный выбор содержания задания будет оказывать влияние на обе оценки. Если тест использует задания множественного выбора, правильное угадывание также будет влиять на оценку способностей, определяемую «по самому трудному из решенных заданий».

<14 15 161718 19 20 >

Дата добавления: 2015-03-03; просмотров: 1013;