НА ОСНОВЕ РЕГРЕССИОННОЙ МОДЕЛИ
Методы регрессионного анализа позволяют прогнозировать оценки истинных баллов испытуемых по распределению наблюдаемых баллов и коэффициенту надежности теста. Прогноз получается путем подставки в регрессионное уравнение, полученное Дж. Стенли [9],
где Ti — истинный балл; Xi — индивидуальный балл i-го испытуемого; X — среднее значение баллов испытуемых.
Например, в матрице данных из табл. 5.27 Х3=1, X = 5 ,гн=0,78. Тогда Т3- 5 + 0,78(1 — 5)= 1,88 = 1,9, что несколько завышает исходный наблюдаемый балл Х3= 1.
Если в качестве примера выбрать не минимальный наблюдаемый балл 1, а максимальный у 4-го испытуемого, то после коррекции результат Г4 будет несколько занижен: Т4 - 5 + 0,78(9 — 5) ~ = 8,12 вместо прежних 9.
Завышение или занижение наблюдаемых баллов при подсчете
7]. вызвано изменением знака разности Хi-Х в выражении (5.80). Для всех наблюдаемых баллов выше среднего разность будет получаться положительной, а для значений Xi <Х разность Xi-X принимает отрицательные значения. Уравнение линейной регрессии (5.80) учитывает эти тенденции, в результате чего наблюдается отмеченный выше эффект.
ИСТОЧНИКИ НЕУДОВЛЕТВОРИТЕЛЬНОЙ
НАДЕЖНОСТИ ТЕСТА
Вопрос о причинах неудовлетворительной надежности имеет несомненное практическое значение, так как предварительное исследование источников ненадежности позволяет по возможности устранить их влияние при конструировании теста. К числу таких источников обычно относят:
1.Субъективизм при оценке результатов выполнения заданий теста. Субъективизм оценок является непременным атрибутом оценок при включении в тест заданий со свободно конструируемыми ответами. При анализе результатов их выполнения всегда наблюдаются различия между подходами различных экспертов и между ответами одного и того же испытуемого при повторном выполнении им теста. Очевидным следствием этих различий является снижение надежности теста. Наиболее эффективный метод преодоления отмеченного недостатка — использование закрытых заданий, которые благодаря возможности объективной оценки результатов выполнения при прочих равных ведут к повышению надежности теста.
2.Угадывание. Проблема угадывания подробно обсуждалась в гл. 4 пособия, однако в несколько ином контексте использования формулы для коррекции результатов выполнения закрытых заданий теста. Однако, как показывают специальные исследования, угадывание существенно снижает надежность теста, особенно в тех случаях, когда тестируется группа слабых учеников, которые обычно прибегают к догадке при выполнении наиболее трудных заданий теста.
3.Отсутствие логической корректности формулировок заданий теста. Двусмысленность формулировок заданий обсуждалась ранее, в гл. 4. Как правило, некорректные задания пропускают сильные ученики, что в целом негативно отражается на надежности теста.
4.Неоправданный выбор весовых коэффициентов. Проблема выбора оптимальных весовых коэффициентов рассматривалась в разд. 5.4. При правильном положении вещей выбор весовых коэффициентов в процессе подсчета индивидуальных баллов обучаемых должен базироваться на соответствующей теории. Только в том случае, когда весовым коэффициентам приданы оптимальные значения, их введение не ведет к снижению надежности теста.
5. Длина теста. Ранее, в этом же разделе, было показано, что надежность растет по мере увеличения длины теста. Для удовлетворительной, но не хорошей надежности обычно достаточно 30 заданий теста.
6. Отсутствие стандартной инструкции к тесту. Инструкции к тесту должны быть предельно стандартизованы и точны. Любые неоднозначности, двусмысленности и отступления от требований стандартизации в инструкции ведут к снижению надежности теста.
7. Другие источники снижения надежности. Иные источники ненадежности связаны с испытуемыми, а не с заданиями теста. Испытуемый может плохо себя почувствовать во время работы над тестом либо ошибиться в инструкции и указать и вместо правильного неверный ответ. На результаты выполнения теста могут повлиять усталость и скука, температура в помещении, шум за окном и т.п.
В целом все эти факторы приводят к снижению надежности теста, поэтому их влияние стараются нивелировать как в процессе создания, так и при применении теста.
вааианость гомогенных тестов
В трудах теоретиков-тестологов валидность трактуется как характеристика качества теста, ориентированная на оценку адекватности теста поставленной цели его создания. Другими словами, валидность — это характеристика способности теста служить поставленной цели измерения.
Как правило, постановка целей создания теста носит комплексный характер, поэтому часто стараются проверить валидность с разных позиций сообразно различным направлениям использования теста. Например, нормативно-ориентированный тест для приема абитуриентов в вузы должен служить цели дифференциации испытуемых и прогностическим целям, так как мало выделить лучших абитуриентов в момент приема, нужно также осуществить спрогнозировать успешность дальнейшего обучения зачисленных в вузы абитуриентов.
содержательная валидность
При разработке педагогических тестов, конечно, на первом плане находится содержательная валидность, которая определяется как характеристика репрезентативности содержания теста по отношению к запланированным для проверки знаниям и умениям. Если тест позволяет проверить все то, что задумано авторами в спецификации, он считается валидным относительно контролируемого содержания курса. Представление о содержательной валидности не следует связывать только с полнотой отображения в тесте содержания проверяемого курса. Полнота выходит на первый план при создании критериально-ориентированных тестов. В случае нормативно-ориентированного подхода дело обстоит несколько иначе.
Конечно, во всех случаях справедлив общий вывод — чем глубже и полнее отображение, тем выше уверенность в содержательной валидности теста. Однако при нормативно-ориентированном подходе есть свои особенности. Тест валиден по содержанию, если он обеспечивает высокую дифференциацию результатов испытуемых и в нем отображено все то главное, без чего нельзя говорить о знании курса. При этом отдельные содержательные разделы могут быть представлены фрагментарно, а другие и вовсе отсутствовать в тесте.
Для повышения содержательной валидности в тест лучше включать задания, содержание которых не связано каким-либо заметным образом, и потому эти задания при проверке не могут замещаться. При прочих равных эта тенденция приведет к повышению полноты охвата содержания и, следовательно, к росту содержательной валидности теста. Таким образом, если речь идет о валидности, то конструктор заинтересован в выборе заданий с малыми коэффициентами интеркорреляции.
К противоположному выводу легко прийти, если стараться повысить надежность теста. Именно отбор заданий с большими коэффициентами интеркорреляции можно обеспечить высокую однородность содержания и отличную надежность теста. Это противоречие, отмеченное впервые Ф. Лордом [50], дает основание для возникновения серьезных проблем при конструировании теста. Здесь легче привести примеры, иллюстрирующие проблемы разработчиков тестов, и дать советы общего характера, чем найти разумное компромиссное решение в практической работе по созданию теста. В частности, легко представить ситуацию конструирования итогового теста по алгебре. Если включить в него только задания на решение уравнений одного вида, то можно достичь высокой надежности, близкой к 0,90. Однако, и это понятно без всяких объяснений любому читателю, маловероятно, чтобы этот итоговый тест обладал приемлемой содержательной валидностью.
Таким образом, при конструировании гомогенного теста следует стремиться к повышению его надежности в разумных пределах, так чтобы не снизить существенным образом содержательную валидность теста. Поэтому при отборе заданий в тест необходимо иметь четкое представление об их содержании и о множестве других факторов, а не просто отдавать предпочтение тем, которые высоко коррелируют друг с другом и обеспечивают хорошую надежность теста. Правда, по рассматриваемой выше проблеме есть другая точка зрения, принадлежащая Гилфорду [44] и Ньюнелли [II]. Они полагают, что внутренняя согласованность теста является непременным условием его высокой содержательной валидности, и потому высокая надежность является предпосылкой оптимальной валидности теста.
К точке зрения Ф. Лорда присоединяются Кэттелл и Клайн [ 11 ] . По их мнению, максимум валидностй может быть получен тогда, когда все задания слабо, но положительно коррелируют друг с другом, но каждое из них имеет высокую корреляцию с критерием по тесту. Поэтому повышению валидности способствует включение заданий, для которых характерны большие коэффициенты бисе-риальной корреляции с суммой баллов по тесту.
Помимо этого, повышению содержательной валидности обычно способствует независимая экспертиза, рекомендации по проведению которой представлены в гл. 3.
Дата добавления: 2018-11-25; просмотров: 308;