Факторы, влияющие на надежность гомогенного теста
Основываясь на постулатах классической теории тестов, можно показать, что корреляция rт каждого задания./ с истинным показателем Т равна квадратному корню из среднего значения его корреляций с другими заданиями теста [11]:
где rт — среднее значение по всем корреляциям j-го задания с остальными заданиями теста.
Далее следует вспомнить, что, чем выше корреляция между множествами наблюдаемых Х и истинных Г баллов, тем меньше ошибка измерения, тем надежнее тест. Поэтому естественно принять предположение об увеличении надежности по мере роста rJT для каждого задания теста.
Сточки зрения разработчика теста, формула (5.72) имеет крайне важное значение, поскольку из нее следует интересный вывод, необходимый для конструирования надежного гомогенного теста. Если автор сумеет разработать много заданий и выбрать из них те, которые имеют большое значение среднего арифметического корреляций с другими заданиями теста, то согласно формуле (5.72) тест будет в высокой степени надежным и обеспечит низкую погрешность измерения.
Однако это простое, казалось бы, правило конструирования автору довольно трудно выполнить при создании итогового теста. Если при выборе заданий из совокупности руководствоваться исключительно формулой (5.72), то, с одной стороны, повысится однородность (гомогенность) теста и соответственно надежность осуществляемых с его помощью измерений. С другой стороны, отбор заданий с высокой интеркорреляцией неизбежно негативно скажется на качестве содержания итогового теста. В тест попадут близкие по содержанию задания, нацеленные на одни и те же содержательные элементы, что явно противоречит идее итоговой проверки.
Правда, из этого положения есть выход, который предлагают теоретики. В очень длинных тестах (100 заданий или более) малые значения интеркорреляции заданий могут сочетаться с высокой надежностью теста. Поэтому итоговые тесты часто стараются увеличить по длине и довести ее до 100—150 заданий [11].
Таким образом, первым фактором, влияющим на надежность, является внутренняя согласованность теста, обеспечиваемая высокой однородностью содержания заданий при их отборе в тесте. Точность тестовых оценок возрастает по мере повышения однородности (гомогенности) теста, когда содержание всех заданий нацелено на измерение единственной характеристики ученика, например уровня его подготовки по предмету. Поэтому нередко концепцию надежности увязывают с характеристикой внутренней согласованности теста. В целом при создании гомогенного теста к однородности содержания следует стремиться, но в тех пределах, которые не нарушают правильность пропорций содержательных элементов в итоговом тесте.
Анализ возможных значений интеркорреляции между заданиями можно продолжить, чтобы получить представление о втором факторе, влияющем на надежность теста. Так как корреляции между заданиями отличаются, то они образуют некоторое распределение вокруг их среднего значения для каждого задания теста. Исходя из этого предположения, можно оценить стандартную погрешность измерения среднего значения интеркорреляции Se (rj) для каждого задания теста:
где Srjk — стандартное отклонение по распределению значений коэффициента корреляции j-го задания со всеми другими заданиями теста; п — число заданий в тесте.
Формула (5.73) указывает на прямую пропорциональную зависимость от стандартного отклонения корреляций заданий и обратную зависимость от количества возможных корреляций между п заданиями теста. Вычитание единицы в знаменателе дает соответствующие степени свободы.
Анализ формулы (5.73) позволяет получить два важных следствия: первое — по мере возрастания стандартной погрешности увеличивается различие между интеркорреляциями заданий, второе — стандартная погрешность убывает с ростом числа заданий в тесте. Таким образом, формула (5.73) показывает, что надежность повышается с увеличением не только однородности содержания заданий, но и длины теста. Следовательно, длина теста — это второй фактор, влияющий на надежность теста.
Если применить формулу (5.73) для случая, когда Srjk = 0,15 , к тесту, состоящему из 10, 20 и 30 заданий, то получатся следующие стандартные погрешности [11]: 0,02; 0,01; 0,007 соответственно.
Приведенные результаты указывают на высокую точность оценки надежности теста для случая, когда дисперсия по множеству значений коэффициента интеркорреляции заданий невелика, что характерно для гомогенного теста достаточно большой длины (не менее 30 заданий).
Вообще говоря, вывод о необходимости разработки длинных тестов вполне понятен интуитивно, без всякого анализа формулы, так как естественно увязать этот вывод с определением истинного балла тестируемых учеников. В той гипотетической ситуации, когда число заданий в совокупности стремится к бесконечности, наблюдаемый балл приближается к истинному баллу при уменьшении ошибки измерения, следовательно, по мере роста числа заданий увеличивается надежность теста.
Однако этот формальный вывод приходит в явное рассогласование с реальными возможностями учеников, поскольку по мере роста длины теста увеличивается их утомляемость и снижается мотивация к выполнению заданий теста, что в совокупности ведет к росту ошибки измерения. Из-за накопившейся усталости ученики не справляются с теми заданиями, которые в другой ситуации могли бы выполнить вполне успешно. Поэтому при выборе оптимальной длины теста разработчики руководствуются группой факторов, среди которых высокая дисперсия тестовых баллов, нормальный характер их распределения, форма используемых заданий, возраст учеников и определенное в соответствии с их физиологическими возможностями оптимальное время выполнения теста.
По данным работы [43], учащиеся старших классов за одну минуту могут выполнить одно задание с выбором ответа (при числе ответов не менее четырех), три задания с кратким ответом на дополнение или три задания типа «правильно-неправильно» при условии, что все задания проверяют знания, а не способности учеников. .
В практике советской и российской школы при использовании тестов достижений в одну работу, рассчитанную на урок (45 мин.), обычно включают до 25 заданий с выбором ответа разного уровня трудности или от 3 до 10 заданий со свободным ответом. Вполне понятно, что подобная совокупность заданий из-за маленькой длины не обеспечит достаточную надежность теста, да и вряд ли вообще может быть названа тестом.
При определении оптимальной длины теста можно также воспользоваться данными международных сравнительных исследований (IAEP, TIMSS), в которых принято следующее распределение времени на выполнение заданий различного типа: с выбором ответа из четырех-пяти — в среднем до 1 мин., с кратким дополняемым ответом — в среднем до 2 мин., с полным свободно конструируемым ответом — до 5 мин.
С учетом всего сказанного рекомендуется проводить тестирование выпускников неполной средней школы (9 класс) в течение 2—3 уроков (от 90 мин. до 2 ч), а выпускников средней школы (11 класс) — в течение 2-4 уроков (от 1,5 до 3 ч).
Таким образом, письменная работа на два урока может включать до 50 заданий с выбором ответа, что позволит при прочих условиях обеспечить приемлемую, но не хорошую надежность теста. (Точная формула для определения скорости роста надежности по мере увеличения длины теста будет приведена дальше в разделе по оценке надежности теста.)
В оценке надежности очень важен подбор адекватной выборки испытуемых, выполняющих тест. Поскольку коэффициент надежности, как и любая статистика, связан с объемом выборки, то рекомендуется использовать выборки большого объема для оценки надежности теста. Например, Гилфорд в качестве минимального размера выборки предлагает 200 испытуемых для определения надежности теста [44]. По мнению Ньюнелли, их должно быть не менее 300, а вообще справедливо простое правило — чем больше выборка, тем достовернее оценка надежности теста.
Однако еще более важным параметром выборки, чем ее объем, является ее состав. Большая, но неправильно подобранная, нестратифицированная выборка может дать полностью ошибочные представления об оценке надежности теста. Выборка должна отражать ту категорию лиц, для которых предназначен тест. Например, если тест предназначен для итоговой аттестации выпускников 9 классов, бесполезно оценивать его надежность на выборке одиннадцатиклассников. Сама по себе выборка не должна состоять только из сильных или слабых учеников. Для оценки надежности в выборку включают школьников с различным уровнем подготовки, чтобы различные по подготовке категории школьников были представлены в равных долях.
Таким образом, при оценке надежности выборка испытуемых комплектуется специальным образом для отражения разнообразных параметров генеральной совокупности школьников.
Дата добавления: 2018-11-25; просмотров: 500;