Оценка надежности теста
Оценка надежности нормативно-ориентированных тестов проводится различными методами, которые по способу осуществления можно условно разделить на две группы. Первая группа методов базируется на двукратном тестировании, проводимом с помощью одного и того же теста либо с помощью двух параллельных форм теста. Вторая группа предполагает однократное тестирование при оценке надежности теста.
Конечно, практически отдают предпочтение второй группе методов, поскольку организация повторного тестирования, как и разработка параллельных форм, всегда сопряжена с определенными трудностями и дополнительными затратами со стороны создателей тестов.
Вне зависимости от метода оценка надежности не всегда, но чаще всего строится на подсчете корреляции между двумя наборами результатов выполнения одного и того же теста или двух его параллельных форм. Логика рассуждений при этом довольно проста: чем выше корреляция, тем выше надежность теста.
Для маленькой выборки корреляцию можно оценить визуально, как, например, в приведенном далее примере (табл. 5.27). В рассматриваемом гипотетическом примере три теста А, В и С из 10 заданий дважды выполняла одна и та же выборка из 10 учеников.
Таблица 5.27. Результаты двукратного выполнения трех тестов
| Номер испытуемого | Тест А | ТестВ | Тест С | |||
| 1-е тестирование | 2-е тестирование | 1-е тестирование | 2-е тестирование | 1-е тестирование | 2-е тестирование | |
| • 4 | ||||||
| 5 | ||||||
Тест А обладает оптимальной надежностью, так как результаты 10 учеников остались прежними: баллы и места учеников не изменились после повторного выполнения теста. Подсчет корреляции результатов первого и второго тестирования даст коэффициент
корреляции, равный единице, поэтому (rн)А =-1.
Тест В полностью ненадежен: те, кто имел самые высокие баллы в первом тестировании, получают самые низкие во втором после повторного применения этого же теста. Результаты двукратного использования теста В указывают на полное отсутствие воспроизводимости баллов испытуемых и, следовательно, на минимальную
надежность теста, поэтому (rн )в = -1.
Тест С обеспечивает в целом существенно изменившуюся картину, хотя результаты отдельных учеников (3-го и 9-го) будут воспроизведены при повторном выполнении теста. Скорее всего, надежность третьего теста невелика, но положительна и ближе к нулю, чем к статистически значимым оценкам надежности теста.
Естественно, что рассмотренные гипотетические ситуации для теста А и В практически не встречаются в практике. Обычно коэффициент надежности принимает положительные значения, но никогда не бывает равен единице и даже для существующих десятилетиями, получивших всеобщее признание очень хороших тестов.
Статистические методы подсчета коэффициента надежности могут быть основаны на различных формулах. Некоторые из них приводятся далее и сопровождаются примерами, иллюстрирующими их использование. В качестве примера выбрана матрица тестовых результатов размером 10 х 10, которая ранее уже встречалась при обсуждении статистических методов обработки результатов выполнения теста (см. табл. 5.3). Для удобства читателей она приводится еще раз (табл. 5.28).
Таблица 5.28. Матрица тестовых результатов
| Номер испытуемого/ | Номер задания у | Индивидуальный балл Л", | |||||||||
| 7. | |||||||||||
| 10 - | 1' | ||||||||||
| Число правильных ответов rj | |||||||||||
| pj | 0,9 | 0,8 | OS | 0 1 | |||||||
Дата добавления: 2018-11-25; просмотров: 609;
