ДИСКРИМИНАТИВНОСТЬ ТЕСТОВОГО ЗАДАНИЯ
Дискриминативностью (discriminatory power) называется способность задания дифференцировать учеников на лучших и худших. Высокая дискриминативность — важная характеристика удачного тестового задания. Это утверждение становится вполне понятным, если вспомнить, что достижение дифференцирующего эффекта — главная цель создания нормативно-ориентированных тестов. Поэтому хороший нормативно-ориентированный тест должен быть составлен из заданий с высокой дискриминативной способностью.
Конечно, дискриминативность не единственный показатель качества тестовых заданий в нормативно-ориентированных тестах. В целом дифференцирующий эффект зависит от многих составляющих: корреляции между заданиями, числа заданий и от других характеристик, среди которых все же наиболее важное место отводится показателю дискриминативности каждого задания теста.
Для оценки дискриминативности задания применяются различные формулы. Наиболее простым является расчет по формуле
где (rдис)- — индекс дискриминативности для j-го задания теста; (p1)j — доля учеников, правильно выполнивших j-е задание в подгруппе из 27% лучших учеников по результатам выполнения теста; (р0)i. — доля учеников, правильно выполнивших j-е задание в подгруппе из 27% худших учеников по результатам выполнения теста.
Значения индекса rдис для заданий теста обычно представляют собой десятичную дробь, принадлежащую интервалу [-1;1]. Максимального значения 1,00 индекс rдис достигнет в том случае, когда все ученики из подгруппы лучших верно выполнят j-e задание теста, а из подгруппы худших это задание не выполнит верно ни один ученик. В этом случае задание будет обладать максимальным дифференцирующим эффектом.
Нулевого значения индекса rдис достигнет в том случае, когда в обеих подгруппах будут равны доли учеников, правильно выполнивших j-е задание теста.
И наконец минимальное значение rдис = -1 будет в ситуации, когда данное задание теста все сильные ученики сделали неверно, а все слабые — верно. Естественно, что задания второго и третьего типа с rдис = 0 или rдис < 0 из теста следует удалить.
Значения rдис для 42 заданий теста, полученные на выборке из 100 испытуемых, приведены в табл. 5.25.
По результатам анализа данных правого столбца ясно, что задания 6,8, 15,17,31,35 и 37 должны быть удалены из теста. Оценки rдис для заданий 4, 20 и 29 очень близки к критическому значению
Таблица 5.25. Значения rдис для теста из 42 заданий
Номер задания | Все | Группа | Индекс | |
слабая | сильная | |||
67,0 | 48,0 | 87,0 | 0,39 | |
72,0 | 48,0 | 94,0 | 0,45 | |
75,0 | 55,0 | 90,0 | 0,35 | |
25,0 | 16,0 | 32,0 | 0,16 | |
21,0 | 6,5 | 32,0 | 0,26 | |
94,0 | 90,0 | 97,0 | 0,065 | |
82,0 | 74,0 | 94,0 | 0,19 | |
27,0 | 26,0 | 29,0 | 0,032 | |
73,0 | 58,0 | 94,0 | 0,35 | |
66,0 | 55,0 | 87,0 | 0,32 | |
64,0 | 42,0 | 97,0 | 0,55 | |
61,0 | 45,0 | 74,0 | 0,29 | |
34,0 | 9,7 | 42,0 | 0,32 | |
38,0 | 16,0 | 71,0 | 0,55 | |
59,0 | 68,0 | 58,0 | -0,097 | |
85,0 | 65,0 | 97,0 | 0,32 | |
61,0 | 71,0 | 61,0 | -0,097 | |
48,0 | 42,0 | 68,0 | 0,26 | |
88,0 | 71,0 | 94,0 | 0,23 | |
27,0 | 16,0 | 29,0 | 0,13 | |
51,0 ъ | 26,0 | 65,0 | 0,39 | |
35,0 | 16,0 | 42,0 | 0,26 | |
62,0 | 29,0 | 87,0 | 0,58 | |
20,0 | 9,7 | 39,0 | 0,29 | |
41,0 | 23,0 | 42,0 | 0,19 | |
40,0 | 23,0 | 65,0 | 0,42 | |
79,0 | 55,0 | 100,0 | 0,45 | |
37,0 | 6,5 | 61,0 | 0,55 | |
22,0 | 13,0 | 29,0 | 0,16 | |
70,0 | 29,0 | 94,0 | 0,65 | |
26,0 | 32,0 | 19,0 | -0,13 | |
42,0 | 19,0 | 71,0 | 0,52 |
Окончание табл. 5.25
Номер задания | Все | Группа | Индекс | |
слабая | сильная | |||
65,0 | 26,0 | 90,0 | 0,65 | |
30,0 | 13,0 | 42,0 | 0,29 | |
11,0 | 16,0 | 0,0 | -0,16 | |
70,0 | 42,0 | 94,0 | 0,52 | |
12,0 | 9,7 | 16,0 | 0,065 | |
33,0 | 16,0 | 52,0 | 0,35 | |
73,0 | 42,0 | 90,0 | 0,48 | |
46,0 | 29,0 | 58,0 | 0,29 | |
40,0 | 32,0 | 58,0 | 0,26 | |
51,0 | 29,0 | 74,0 | 0,45 |
(близки к нулю). Поэтому для заданий последней группы необходим тщательный анализ содержания. Правда, возможно, что виновато не содержание, а полученные низкие значения отражают случайный характер ответов учащихся или появление при изучении проверяемого материала в тесте каких-либо проблем, наличествовавших ранее.
Более точное представление о дискриминативной способности задания можно составить, подсчитав коэффициент (rpbis) бисериальной корреляции, процесс вычисления значений которого подробно рассмотрен в разд. 5.2. Помимо приведенной в разд. 5.2 формулы для rpbis можно использовать другие, дающие близкие значения:
где (rpbis)- — коэффициент точечно-бисериальной корреляции для у-го задания; (X\)j — среднее значение индивидуальных баллов учеников, выполнивших верно j-е задание; (X1)j — среднее значение индивидуальных баллов учеников, выполнивших j-е задание неверно; X — среднее значение баллов по всей выборке учеников; Sx —. стандартное отклонение по множеству индивидуальных баллов.
Логика рассуждения при оценке результатов, полученных по формулам (5.62) или (5.63), остается та же, что раньше: чем выше корреляция, тем лучше задание теста. Задания с близкими к нулю и отрицательными значениями rpbis должны быть удалены из теста. Однако в реальной ситуации создания теста встречаются случаи, когда задание кажется разработчику крайне удачным по содержанию, однако наряду с этим имеет близкую к нулю корреляцию с суммой баллов по тесту. В этой связи возникает вопрос о выборе критического числа, ниже которого не могут спускаться значения rpbis при отборе заданий теста. По мнению многих специалистов (L. Crocker, J. Algina, P. Kline и др.) [11,41 и др.], в качестве такого критического числа следует выбрать 0,2, и потому все задания со значением rpbis<0,2 должны быть удалены из теста.
Вместо rpbis можно использовать rbis, который труднее вычислять для тех же данных по заданиям теста. Правда, в силу того, что значения rbis несколько выше значений /-pbis по одному и тому же заданию, критическим числом для rbis следует считать 0,3. Таким образом, все задания со значением rbis < 0,3 должны быть удалены из теста.
Еще более точные представления о дискриминативности заданий дает подсчет в рамках IRT дифференцирующей способности заданий теста (разд. 5.3.). Оценка параметра дифференцирующей способности j-го задания теста производится по формуле, которая для удобства читателей приводится еще раз:
где (rbis)j — коэффициент бисериальной корреляции для j- го задания теста.
В отличие от rbis бисериальный коэффициент корреляции rbis может принимать значения, выходящие за пределы интервала [-1, 1 ]. Обычно это происходит в том случае, когда распределение результатов по заданию отличается от нормального, и потому rbis может быть найден не всегда и не для всех заданий теста.
В тех случаях, когда |rbis|< 1, Oj принимает значения в интервале (—о°; +оо). Однако этот интервал имеет чисто теоретическое значение, реальные значения а. обычно лежат в интервале от 0,5 до 2,5.
Правда, задания с aj < 1 считаются неудачными, поскольку их дифференцирующая способность при делении группы на слабых и сильных крайне слаба. Обычно при конструировании теста отдают предпочтение заданиям со значениями в интервале 1 < aj < 2,5.
Задания aj >2,5 обладают крайне высокой дифференцирующей способностью, однако захватывают весьма небольшой участок оси латентной переменной 6 (разд. 5.3), поэтому их обычно используют только в тех случаях, когда необходимо достичь максимальной дискриминативности (например вблизи критерия выполнения теста) для небольшой окрестности вблизи критического значения 0 на оси измеряемой переменной. Во всех остальных случаях используют умеренно крутые задания со значениями aj немногим больше единицы.
Не следует считать, что предложенные оценки дискриминативности заданий (rmc)j, (rpbis)j, (rbis)j и ajкаким-то образом конкурируют друг с другом в процессе анализа качества заданий теста. Все они описывают одну и ту же характеристику задания, но на различных уровнях с точки зрения точности описания и задействованного математического аппарата. Конечно, самым простым, но самым примитивным способом характеризует дискриминативность задания, который легко вычислить для группы тестируемых в 100—200 человек с помощью обычного калькулятора.
Более точную характеристику дискриминативности задания обеспечивает rbis, для вычисления которого на сравнительно больших выборках необходимы специальное программное обеспечение и компьютер. Еще лучше в процессе анализа использовать rbis. Однако здесь разработчику понадобятся статистические таблицы для ординаты нормированной нормальной кривой либо довольно сложное программное обеспечение, реализующее методы подсчета одного из пределов несобственного интеграла.
Несомненно, оптимальной характеристикой с точки зрения качества описания является дифференцирующая способность задания — параметра а,, оценка которого сопряжена с использованием сложного математического аппарата, программного обеспечения и ПЭВМ. Процедура вычисления значений аj (j=1, 2,..., и) довольно длинна, поэтому на практике разработчики нередко ограничиваются подсчетом rbis. Показатель дискриминативности обычно отождествляют с характеристикой валидности задания теста, т.е. с его пригодностью задания служить поставленной цели измерения. Для нормативно-ориентированных итоговых тестов такая трактовка представляется вполне закономерной, так как основная цель их создания — дифференциация учеников по уровню подготовки. Таким образом, чем выше дискриминативность задания, тем выше его валидность в тесте.
Интересна взаимосвязь показателей трудности и дискриминативности заданий теста. Задания с высокой дискриминативностью обычно имеют среднюю трудность, поскольку именно для них характерен в первую очередь высокий дифференцирующий эффект. Однако обратное заключение, вообще говоря, неверно. Задания с р = 0,5 могут иметь как высокий, так и низкий дифференцирующий эффект.
Дата добавления: 2018-11-25; просмотров: 1287;