ДИСКРИМИНАТИВНОСТЬ ТЕСТОВОГО ЗАДАНИЯ

Дискриминативностью (discriminatory power) называется способность задания дифференцировать учеников на лучших и худших. Высокая дискриминативность — важная характеристика удачного тестового задания. Это утверждение становится вполне понятным, если вспомнить, что достижение дифференцирующего эффекта — главная цель создания нормативно-ориентированных тестов. Поэтому хороший нормативно-ориентированный тест должен быть составлен из заданий с высокой дискриминативной способностью.

Конечно, дискриминативность не единственный показатель качества тестовых заданий в нормативно-ориентированных тестах. В целом дифференцирующий эффект зависит от многих составляющих: корреляции между заданиями, числа заданий и от других характеристик, среди которых все же наиболее важное место отводится показателю дискриминативности каждого задания теста.

Для оценки дискриминативности задания применяются различные формулы. Наиболее простым является расчет по формуле

где (r_дис)- — индекс дискриминативности для j-го задания теста; (p₁)_j — доля учеников, правильно выполнивших j-е задание в подгруппе из 27% лучших учеников по результатам выполнения теста; (р₀)i. — доля учеников, правильно выполнивших j-е задание в подгруппе из 27% худших учеников по результатам выполнения теста.

Значения индекса r_дис для заданий теста обычно представляют собой десятичную дробь, принадлежащую интервалу [-1;1]. Максимального значения 1,00 индекс r_дис достигнет в том случае, когда все ученики из подгруппы лучших верно выполнят j-e задание теста, а из подгруппы худших это задание не выполнит верно ни один ученик. В этом случае задание будет обладать максимальным дифференцирующим эффектом.

Нулевого значения индекса r_дис достигнет в том случае, когда в обеих подгруппах будут равны доли учеников, правильно выполнивших j-е задание теста.

И наконец минимальное значение r_дис = -1 будет в ситуации, когда данное задание теста все сильные ученики сделали неверно, а все слабые — верно. Естественно, что задания второго и третьего типа с r_дис = 0 или r_дис < 0 из теста следует удалить.

Значения r_дис для 42 заданий теста, полученные на выборке из 100 испытуемых, приведены в табл. 5.25.

По результатам анализа данных правого столбца ясно, что задания 6,8, 15,17,31,35 и 37 должны быть удалены из теста. Оценки r_дис для заданий 4, 20 и 29 очень близки к критическому значению

Таблица 5.25. Значения r_дис для теста из 42 заданий

Номер задания	Все	Группа	Индекс
слабая	сильная
	67,0	48,0	87,0	0,39
	72,0	48,0	94,0	0,45
	75,0	55,0	90,0	0,35
	25,0	16,0	32,0	0,16
	21,0	6,5	32,0	0,26
	94,0	90,0	97,0	0,065
	82,0	74,0	94,0	0,19
	27,0	26,0	29,0	0,032
	73,0	58,0	94,0	0,35
	66,0	55,0	87,0	0,32
	64,0	42,0	97,0	0,55
	61,0	45,0	74,0	0,29
	34,0	9,7	42,0	0,32
	38,0	16,0	71,0	0,55
	59,0	68,0	58,0	-0,097
	85,0	65,0	97,0	0,32
	61,0	71,0	61,0	-0,097
	48,0	42,0	68,0	0,26
	88,0	71,0	94,0	0,23
	27,0	16,0	29,0	0,13
	51,0 ъ	26,0	65,0	0,39
	35,0	16,0	42,0	0,26
	62,0	29,0	87,0	0,58
	20,0	9,7	39,0	0,29
	41,0	23,0	42,0	0,19
	40,0	23,0	65,0	0,42
	79,0	55,0	100,0	0,45
	37,0	6,5	61,0	0,55
	22,0	13,0	29,0	0,16
	70,0	29,0	94,0	0,65
	26,0	32,0	19,0	-0,13
	42,0	19,0	71,0	0,52

Окончание табл. 5.25

Номер задания	Все	Группа	Индекс
слабая	сильная
	65,0	26,0	90,0	0,65
	30,0	13,0	42,0	0,29
	11,0	16,0	0,0	-0,16
	70,0	42,0	94,0	0,52
	12,0	9,7	16,0	0,065
	33,0	16,0	52,0	0,35
	73,0	42,0	90,0	0,48
	46,0	29,0	58,0	0,29
	40,0	32,0	58,0	0,26
	51,0	29,0	74,0	0,45

(близки к нулю). Поэтому для заданий последней группы необходим тщательный анализ содержания. Правда, возможно, что виновато не содержание, а полученные низкие значения отражают случайный характер ответов учащихся или появление при изучении проверяемого материала в тесте каких-либо проблем, наличествовавших ранее.

Более точное представление о дискриминативной способности задания можно составить, подсчитав коэффициент (r_pbis) бисериальной корреляции, процесс вычисления значений которого подробно рассмотрен в разд. 5.2. Помимо приведенной в разд. 5.2 формулы для r_pbis можно использовать другие, дающие близкие значения:

где (r_pbis)- — коэффициент точечно-бисериальной корреляции для у-го задания; (X\)j — среднее значение индивидуальных баллов учеников, выполнивших верно j-е задание; (X₁)_j — среднее значение индивидуальных баллов учеников, выполнивших j-е задание неверно; X — среднее значение баллов по всей выборке учеников; S_x —. стандартное отклонение по множеству индивидуальных баллов.

Логика рассуждения при оценке результатов, полученных по формулам (5.62) или (5.63), остается та же, что раньше: чем выше корреляция, тем лучше задание теста. Задания с близкими к нулю и отрицательными значениями r_pbis должны быть удалены из теста. Однако в реальной ситуации создания теста встречаются случаи, когда задание кажется разработчику крайне удачным по содержанию, однако наряду с этим имеет близкую к нулю корреляцию с суммой баллов по тесту. В этой связи возникает вопрос о выборе критического числа, ниже которого не могут спускаться значения r_pbis при отборе заданий теста. По мнению многих специалистов (L. Crocker, J. Algina, P. Kline и др.) [11,41 и др.], в качестве такого критического числа следует выбрать 0,2, и потому все задания со значением r_pbis<0,2 должны быть удалены из теста.

Вместо r_pbis можно использовать r_bis, который труднее вычислять для тех же данных по заданиям теста. Правда, в силу того, что значения r_bis несколько выше значений /-_pbis по одному и тому же заданию, критическим числом для r_bis следует считать 0,3. Таким образом, все задания со значением r_bis < 0,3 должны быть удалены из теста.

Еще более точные представления о дискриминативности заданий дает подсчет в рамках IRT дифференцирующей способности заданий теста (разд. 5.3.). Оценка параметра дифференцирующей способности j-го задания теста производится по формуле, которая для удобства читателей приводится еще раз:

где (r_bis)j — коэффициент бисериальной корреляции для j- го задания теста.

В отличие от r_bis бисериальный коэффициент корреляции r_bis может принимать значения, выходящие за пределы интервала [-1, 1 ]. Обычно это происходит в том случае, когда распределение результатов по заданию отличается от нормального, и потому r_bis может быть найден не всегда и не для всех заданий теста.

В тех случаях, когда |r_bis|< 1, Oj принимает значения в интервале (—о°; +оо). Однако этот интервал имеет чисто теоретическое значение, реальные значения а. обычно лежат в интервале от 0,5 до 2,5.

Правда, задания с a_j < 1 считаются неудачными, поскольку их дифференцирующая способность при делении группы на слабых и сильных крайне слаба. Обычно при конструировании теста отдают предпочтение заданиям со значениями в интервале 1 < a_j < 2,5.

Задания a_j >2,5 обладают крайне высокой дифференцирующей способностью, однако захватывают весьма небольшой участок оси латентной переменной 6 (разд. 5.3), поэтому их обычно используют только в тех случаях, когда необходимо достичь максимальной дискриминативности (например вблизи критерия выполнения теста) для небольшой окрестности вблизи критического значения 0 на оси измеряемой переменной. Во всех остальных случаях используют умеренно крутые задания со значениями a_j немногим больше единицы.

Не следует считать, что предложенные оценки дискриминативности заданий (r_mc)j, (r_pbis)j, (r_bis)j и a_jкаким-то образом конкурируют друг с другом в процессе анализа качества заданий теста. Все они описывают одну и ту же характеристику задания, но на различных уровнях с точки зрения точности описания и задействованного математического аппарата. Конечно, самым простым, но самым примитивным способом характеризует дискриминативность задания, который легко вычислить для группы тестируемых в 100—200 человек с помощью обычного калькулятора.

Более точную характеристику дискриминативности задания обеспечивает r_bis, для вычисления которого на сравнительно больших выборках необходимы специальное программное обеспечение и компьютер. Еще лучше в процессе анализа использовать r_bis. Однако здесь разработчику понадобятся статистические таблицы для ординаты нормированной нормальной кривой либо довольно сложное программное обеспечение, реализующее методы подсчета одного из пределов несобственного интеграла.

Несомненно, оптимальной характеристикой с точки зрения качества описания является дифференцирующая способность задания — параметра а,, оценка которого сопряжена с использованием сложного математического аппарата, программного обеспечения и ПЭВМ. Процедура вычисления значений а_j (j=1, 2,..., и) довольно длинна, поэтому на практике разработчики нередко ограничиваются подсчетом r_bis. Показатель дискриминативности обычно отождествляют с характеристикой валидности задания теста, т.е. с его пригодностью задания служить поставленной цели измерения. Для нормативно-ориентированных итоговых тестов такая трактовка представляется вполне закономерной, так как основная цель их создания — дифференциация учеников по уровню подготовки. Таким образом, чем выше дискриминативность задания, тем выше его валидность в тесте.

Интересна взаимосвязь показателей трудности и дискриминативности заданий теста. Задания с высокой дискриминативностью обычно имеют среднюю трудность, поскольку именно для них характерен в первую очередь высокий дифференцирующий эффект. Однако обратное заключение, вообще говоря, неверно. Задания с р = 0,5 могут иметь как высокий, так и низкий дифференцирующий эффект.

<54 55 565758 59 60 >

Дата добавления: 2018-11-25; просмотров: 1477;