Задание для самопроверки 7.1 18 страница

возможностей испытуемого, но не невыполнимы, и поскольку никого не .принуждают «продираться» через слишком большое число заданий (чересчур трудных либо чересчур легких), чтобы получить информацию о способностях, вся процедура тестирова­ния может быть резко сокращена.

Имеются другие преимущества. Поскольку каждый испытуе­мый, вероятно, будет получать совершенно разный набор заданий теста (так как выбор задания, предъявляемого на каждой стадии, зависит от правильности ответов респондентов на предыдущей стадии), проблема сохранения конфиденциальности тестирования становится значительно менее актуальной, особенно если перво­начальное задание было выбрано более или менее случайно. Каж­дый человек будет проходить свой собственный, сформированный именно для него тест. Из того, что вы уже знаете об оценке спо­собностей на основе параметров теста, должно быть ясно, что не имеет значения нестандартизованность теста, т.е. тот факт, что различные респонденты будут выполнять весьма различающиеся задания теста, поскольку суждение о способностях может быть вынесено на основе выполнения любого набора заданий.

Резюме

Существует два основных подхода, которые могут быть просле­жены при конструировании психологических тестов. Один из них использует довольно простую и ясную модель — это классическая теория тестирования. В ней общий балл берется как показатель способностей, и проблемы, которые возникают благодаря этому, усугубляемые различиями в трудности заданий, в значительной сте­пени устраняются использованием норм при интерпретации оце­нок теста. Это простая модель, которая хорошо служила в тече­ние последних пятидесяти лет, хотя мне всегда казалось в высшей степени странным, что классическая модель конструирования тес­та не уделяет какого бы то ни было внимания природе трудностей задания, установлению различий между заданиями или попыткам респондентов угадать правильный ответ в тестах множественного выбора. Трудности заданий никогда явно не выделялись в тесте, который конструировался на основе классической теории. Задания крайней трудности не будут обнаруживать тенденцию коррелиро­вать с другими заданиями и, следовательно, будут элиминированы

26*

в процессе анализа заданий. Однако существует почти святая вера в то, что распределение трудности заданий и показатели дискри­минации для остальной части заданий окажутся пригодными для всей популяции.

Теория сложности заданий адресуется другому полюсу. Она де­лает несколько довольно сильных допущений по поводу связей между способностями и успешностью выполнения заданий теста индивидуумом, и (если эти допущения действительно обоснован­ны) оказывается возможным отделить способности респондентов от трудностей выполнения заданий. Это имеет всевозможные пре­имущества для компьютеризованного адаптивного тестирования, а методика может также оказаться полезной в других вариантах приложения, таких, как идентификация искажений в заданиях тес­та. Однако что будет, если одно (или более) задание окажется не соответствующим тестируемой модели? Следует ли удалять такие задания или нужно попытаться разработать альтернативу логисти­ческим моделям, которая может лучше соответствовать таким заданиям?

Существует несколько практических трудностей, связанных с кон­струированием теста с помощью теории сложности заданий. Мощ­ные компьютеры, необходимые для того, чтобы установить пара­метры задания и личности для наборов данных ощутимых разме­ров, стали свободно доступными только в последние десять лет или около того, и это могло затормозить развитие таких измере­ний. Могут существовать и юридические проблемы, такие, как недавний проект законодательства США, в соответствии с кото­рым любой индивидуум, проходящий тестирование, должен быть в состоянии вычислить свою собственную оценку при условии, что он знает свои ответы. На практике люди, не являющиеся специа­листами, сочтут это трудным. Более того, поскольку лежащая в основе теория намного сложнее, чем классическая теория тести­рования, прикладные психологи могут с неохотой тратить время и усилия на овладение ее принципами и (если мой опыт типичен) могут откровенно скептически относиться к возможности теории заданий устанавливать способности, независимо от характеристик отдельных заданий теста. Психодиагносты также выражают бес­покойство по этому поводу. Насколько я могу судить, не суще­ствует убедительных математических доказательств того, что экс­периментально установленные оценки задания и характеристики испытуемого в полной мере соответствуют оценкам их истинных

значений. Эмпирические доказательства дают основание предпо­лагать, что при определенных условиях это возможно, но доста­точно ли этого на самом деле? И как адекватность выбора модели определяет способность теории заданий отделить характеристики личности от характеристик задания? Будет интересно увидеть, ста­нет ли психологическое тестирование XXI в. синонимом предъяв­ления адаптивных тестов на портативных микрокомпьютерах?

Предложения по дополнительному чтению

Очевидной рекомендацией здесь служит работа Хэмблтона с соавто­рами (Hambleton et ol, 1991). Она представляет собой введение в теорию сложности заданий и адаптивного тестирования, которое в более полном объеме дает все положения, представленные выше. Хэмблтон и Свамина-тан (Hambleton, Swaminathan, 1985) значительно большее внимание уде­ляют деталям, а Лорд и Новик (Lord, Novick, 1968) представляют стан­дартный текст для математически подготовленных читателей. Журнал при­кладных психологических измерений (Applied Psychological Measurement) публикует множество статей по теории сложности заданий и ее практи­ческому применению.

Ответы на задания по самопроверке

16.1. (а) 2; f - 0,8 = 0,2; 1 - 0,7 - 0,3; 1-----~- = °'15-

(б) Поскольку оценка способностей будет зависеть от ответа толь­ко на одно задание, удачный выбор содержания задания будет оказывать влияние на обе оценки. Если тест использует задания множественного выбора, правильное угадывание также будет вли­ять на оценку способностей, определяемую «по самому трудно­му из решенных заданий».

16.2. Они могут быть определены по длине перпендикуляра, восста­новленного из точки на оси X, где способности равняются 1,0, до точки его пересечения с характеристической кривой зада­ния. Существует вероятность, равная приблизительно 0,85, что кто-либо, имеющий такие способности, будет правильно выпол­нять задание, уровень трудности которого равен 0, вероятность 0,15, что он будет правильно выполнять задание, уровень труд­ности которого 2,0, и вероятность, равная 0,03, что он правиль-

16.3."

но выполнит задание, уровень трудности которого 3,0. Вероят­ность того, что он правильно выполнит задание, уровень трудно­сти которого равен 1,0, будет составлять 0,5, по определению, поскольку трудность задания — это точка на шкале способнос­тей,-расположенная на полпути вверх по склону графика, кото­рая, в данном случае соответствует вероятности, равной 0,5.

Задание Дискриминация Трудность

0,5 1,0 2,0

О

О 1,0

 


ПРОБЛЕМЫ ТЕСТОВ

>бщая картина

В этой главе рассматриваются некоторые проблемы, связанные с тем, что может оказывать воздействие на оценки, получаемые по тестам способностей и личности: общая ситуация, установки по отношению к тестированию и т.д. Особенное внимание уделя­ется утверждению, что психологические тесты искажают данные не в пользу различных меньшинств. В начале главы дается пред­ставление о природе ошибок теста и методах их выявления.

Главы, рекомендуемые для предварительного чтения

11, 13 и 16.

ведение

Не вызывает сомнения, что психологические тесты представ­ляют общественно значимую проблему, поскольку и в популяр­ных изданиях, и в психологических журналах выражались серьез­ные сомнения по поводу «беспристрастности» различных психо­логических тестов. Например, Кэмин (Kamin, 1974) привлекает наше внимание к способу использования некоторых ранних тестов способностей, применявшихся в США в 1920-е гг. для выявления «слабоумных» иммигрантов. Вместо того чтобы тестировать абст­рактное мышление, эти тесты включали задания, оценивающие фактические знания в области американской культуры (например, надо было назвать бывших президентов США). Неудивительно, что иммигранты (многие из которых не могли даже читать или гово-

рить по-английски и имели очень мало знаний о культуре нации на другой стороне земного шара) оказывались не в состоянии по­казать по этим тестам свои подлинные способности. Такое тести­рование было несправедливым к представителям других культур, поскольку сильно недооценивало их подлинный потенциал.

Когда тесты систематически недооценивают или переоценивают подлинные оценки групп индивидуумов, про них говорят, что они вносят искажения против (или в пользу) определенных групп. Тесты интеллекта, о которых говорит Кэмин, вне сомнения, занижали показатели интеллекта всех тех, кто не говорил по-английски бегло и/или имел мало знаний об американском образе жизни. Члены этих групп получали оценки по тестам, которые не отражали их полного потенциала. Отметьте, однако, что искажение было обнаружено в этом случае благодаря способу использования теста: кто-то где-то отобрал тест, не подходящий для данной задачи. Тест, используе­мый в этом примере, мог оказаться совершенно адекватным в других случаях, например, для применения в школе или в психологии труда, где языковые различия не составляют проблему. Следова­тельно, важно подчеркнуть, что смещение оценок может возник­нуть из-за неправильного выбора в других условиях вполне адек­ватного теста, хотя и сами тесты могут также иметь недостатки.

Когда мы рассматривали теорию надежности в главе 13, было признано, что каждая индивидуальная оценка по тесту имеет ту или иную ошибку измерения. В соответствии с изложенной там моделью корень квадратный из показателя надежности теста пред­ставляет близкую апроксимацию корреляции между оценкой ин­дивидуума по тесту и его «подлинной оценкой» по анализируемой черте. Решающее допущение, сделанное при этом, заключается в том, что ошибка измерения имеет, по существу, случайный ха­рактер. Если испытуемый выполняет несколько тестов, измеряю­щих одну и ту же черту, один тест может слегка переоценить его показатели, другой — слегка недооценить их, но в среднем тесты обеспечат точную оценку способностей человека. В этой главе мы рассмотрим не случайные, а, напротив, систематические ошибки измерения — тип ошибок, которые будут постоянно завышать подлинные показатели одних индивидуумов и занижать подлин­ные показатели других. Иммиграционный тест будет сильно зани­жать интеллектуальные способности некоторых четко определен-ных групп соискателей (тех, кто не может читать по-английски и ничего не знает об американской культуре). Нетрудно придумать

много хитрых вопросов, которые также внесут ошибку, особенно в тестах, базирующихся на знаниях, например: «Сколько игроков в команде по нетболу?», «Каково соотношение муки и жира в пе­сочных пирожных?», «Каково назначение распределительного вала?», «Каково соотношение цемента и песка в строительном растворе для кладки кирпича?»

Подобные типы ошибок измерения могут оказывать воздей­ствие не только на вопросы, адресующиеся к тривиальным знани­ям. Когда школьные психологи тестируют детей, возможно ли, что на успешность при выполнении теста будет влиять пол/воз­раст/раса психолога? Что можно сказать о мотивации, побуждаю­щей к успешному выполнению теста? Совершенно очевидна необ­ходимость установить, могут ли какие-либо из этих переменных влиять на успешность детей; иначе говоря, могут ли в подобных случаях переоцениваться или недооцениваться способности детей? В оставшейся части этой главы будут упомянуты некоторые из та­ких источников ошибки измерения, указано их значение и пред­ложены возможные способы их выявления.

Тот факт, что некоторые группы дают различающиеся оценки по некоторым психологическим тестам, имеет особое значение для тех, кто использует такие тесты как часть процедуры отбора. Применение этих тестов будет, очевидно, вести к тому, что груп­па (группы) с более низкими средними оценками по тесту будет недостаточно представлена среди работающих. Это заставило не­которые учреждения отказаться от использования психологичес­ких тестов как части процедуры отбора, предпочитая вместо этого произвольно выбирать подходящих по квалификации индивидуу­мов. В то время как произвольный отбор, вероятно, обеспечит вы­бор индивидуумов, которые репрезентативны всем группам соис­кателей, он явно не способен обеспечить выбор лучшего кандидата для работы. Поскольку тесты способностей имеют часто коэффи­циенты валидности порядка 0,4, это может означать, что органи­зации будут просто отсеивать при приеме на работу большинство способных соискателей.

Поэтому, вероятно, лучше всего не отвергать психологические тесты совсем, а оценить проблемы (иногда деликатные), создава­емые групповыми различиями и систематической ошибкой теста при использовании и интерпретации его результатов, хотя неко­торые авторы (например, Rust, Golombock, 1989) имеют более пессимистический взгляд на это.

На показатели тестов может влиять не только принадлежность к определенной социокультурной группе. Психологические или поведенческие характеристики, которые совершенно не связаны с тем, что тест измеряет, могут влиять на результаты тестирова­ния, особенно в личностных тестах. Они часто обозначаются как «установки ответов» или «искажения ответов», и, чтобы миними­зировать их эффекты при разработке или использовании тестов должны быть предприняты определенные усилия.

Внешние смещения в тестах

В своем обсуждении тестов способностей Кэмин упускает из виду то обстоятельство, что свойственные тестам проблемы долж­ны были быть выделены, когда (и если) тесты валидизировались. Если бы оценки по тестам коррелировали с последующими крите­риями (например, годовым доходом, школьной успеваемостью детей), бесполезность тестов неизбежно быстро стала бы очевид­ной. Например, прослеживающие исследования могли выявить связь такого типа, как показана на рис. 17.1, иллюстрирующем гипоте­тический годовой доход иммигрантов (обозначен кружками) и аме­риканцев второго поколения (обозначен крестиками), который они имели 10 лет спустя после тестирования интеллекта, как функцию их тестовых оценок.

На рис. 17.1 вы можете заметить, что большинство иммигран­тов имели очень низкие показатели по тесту IQ, их оценки нахо­дятся в левой части графика. Крестики представляют второе поко­ление американцев, и видно, что имеется существенная положи­тельная корреляция между показателями интеллекта и доходом только у этих индивидуумов.

На рисунке представлена «линия наилучшего соответствия» данным для второго поколения американцев, вычисленная с ис­пользованием статистического метода, называемого регрессион­ным анализом. Он позволяет предсказать — на основе тестовых оценок интеллекта индивидуумов второго поколения — их после­дующий годовой доход. Просто нужно найти точку на оси X, кото­рая соответствует оценке человека по тесту IQ, и установить вер­тикаль до пересечения с линией регрессии. Оцениваемый годовой доход индивидуума можно будет установить по значению на оси Y, соответствующему этой точке.

Рис. 17.1. Гипотетическая связь между оценками по тестам интеллекта и годовым доходом двух групп индивидуумов спустя 10 лет пос­ле тестирования.

Если бы этот тест был справедлив и для иммигрантов, можно было бы ожидать выявления такой же скрытой взаимосвязи. Пос­леднее означает, что если показатель IQ важен для размеров пос­ледующего дохода (как оказывается в группе второго поколения), то низкий IQ иммигрантов должен был бы означать, что в после­дующем они будут зарабатывать относительно мало. Оценки ин­теллекта иммигрантов должны были бы находиться близко к той же линии регрессии, что и для большинства группы. Вы можете видеть, что на самом деле это далеко не так. Иммигранты, кото­рые имели низкие оценки по тестам интеллекта, обнаруживают тенденцию зарабатывать намного больше денег, чем следовало бы ожидать на основе регрессионного анализа, и если вы будете рас­сматривать только группу иммигрантов, то можете обнаружить отсутствие корреляции между их оценками по тесту интеллекта и последующим доходом, что едва ли удивительно, если учесть ма­лую информативность теста IQ для членов этой группы.

Задание для самопроверки 17.1

Попытайтесь обработать некоторые данные, нанеся на график доход как функцию показателя IQ двух групп людей, где (а) имеется такая же существенная связь между доходом и показате­лем IQ для обеих групп, обозначаемых «кружки» и «крестики», но где

группа «кружков» имеет тенденцию к более низким показателям IQ и к более низким доходам;

(б) имеется также существенная связь между доходом и показателем 10 для групп «кружков» и «крестиков», но все члены групп «крестиков» имеют годовой доход, который на 2000 долларов выше, чем доход группы «кружков».

На первом графике, полученном в ответ на задание 17.1, демон­стрируется очень важный принцип. Здесь имеются четкие групповые различия в оценках IQ (оценки группы кружков ниже), но члены этой группы также и зарабатывают меньше. Это дает основание пред­полагать, что существуют истинные различия в оценках IQ кружков и крестиков, и поскольку кружки достигают низких показателей по тесту IQ, этот график (в отличие от рис. 17.1) показывает, что тест IQ, по-видимому, дает адекватную оценку их потенциалу.

Важный вывод, который следует извлечь из этого, состоит в том, что существование групповых различий не обязательно подра­зумевает, что тест имеет "смещение. Это утверждение не может считаться слишком сильным — оно фундаментально и имеет по­чти всеобщее признание специалистов по измерению (например, Jensen, 1980; Berk, 1982; Reynolds, 1995). Смещение оценок теста означает, что его задания слишком трудны для членов определен­ных групп по причинам, не связанным с оцениваемыми характерис­тиками, например, потому, что задания в тесте IQ требуют уме­ния читать и писать по-английски или обладать знаниями в обла­сти чужой культуры, которых недавний иммигрант просто не будет иметь. Между способностями разных групп могут существовать и подлинные различия. Например, имеется обширная литература, посвященная половым различиям в успешности обучения.

Если линии регрессии между тестовыми оценками и критери­ем успешности одинаковы для двух групп, существование разли­чий в сред не групповых показателях не имеет значения*. Заключе­ние о наличии смещения можно сделать, когда разные группы описываются разными уравнениями регрессии (различающимися либо по наклону, либо по высоте) или когда оценки членов од­ной группы располагаются дальше от линии регрессии, чем оцен-

* Если принимается, что критерий «справедлив* сам по себе. В случае с им­мигрантами мы должны были бы допустить, что им были предоставлены такие же многочисленные возможности зарабатывать, обеспечивая себе большой доход. как и другой группе американцев.

ки членов другой группы (например, если имеется низкая корре­ляция с критериями). Использование теста, имеющего низкую на­дежность, автоматически вызывает больший разброс показателей по обе стороны от линии регрессии, поэтому по ней можно также судить о том, насколько совпадает надежность теста в обеих группах. Некоторых психологов особенно интересуют групповые разли­чия черт личности и способностей (как правило, расовые разли­чия), которые рассматриваются как подлинные эффекты и не мо­гут быть приписаны ошибкам любого рода. Так, мы читаем, что японцы, как правило, имеют уровень пространственных способ­ностей выше среднего по сравнению с европейцами, а черные американцы склонны иметь более низкие показатели по IQ, чем белые американцы. Ссылок на эти работы я не даю преднамерен­но, потому что, откровенно говоря, для меня в этой области нет академической фундаментальности. Даже если четкие различия между группами имеются, совершенно не ясно, почему они воз­никают. Японцы имеют лучшие навыки потому, что они едят больше рыбы; потому, что их система образования развивает такие навы­ки лучше, чем западная; потому, что существуют генетические различия, или потому, что они должны были охотиться для добы­вания пищи во время ледникового периода и, следовательно, на эту характеристику действовал естественный отбор (хотя странно, что объектом отбора не стала способность к быстрому бегу)? Все перечисленное может быть представлено как возможные варианты объяснения групповых различий, и проверить любую из этих ги­потез (особенно последнюю) непросто.

Можно также легко увлечься идеей групповых различий и за­быть, что индивидуальные различия внутри групп людей намного превышают относительно небольшие различия между группами. Политические опасности доктрины групповых различий, расовой неполноценности и т.п. вряд ли могут остаться незамеченными. Наконец, существует проблема того, как следует поступать, ре­шая, какие группы сравнивать, поскольку каждый из нас являет­ся членом огромного числа групп. Нас можно классифицировать по полу, возрасту, религиозным убеждениям, социальной при­надлежности, музыкальным вкусам, сексуальной ориентации, цвету волос, телосложению и т.д., и было бы вполне возможно исследовать каждый из этих вариантов на предмет существования групповых различий. Однако полезно ли это делать? Что будет озна­чать, если мы обнаружим, например, что рыжеволосые лесбиян-

ки более социабельны, чем рыжеволосые женщины гетеросексу­альной ориентации? Насколько это продвинет вперед развитие те­ории психологии? Мне кажется, что это будет просто фактом, не представляющим большого теоретического интереса.

Тем не менее цвет кожи и пол обладают странной привлека­тельностью для некоторых психологов. Практические психологи также должны осознавать последствия признания групповых раз­личий в способностях при использовании тестов отбора. Хотя выше я утверждал, что групповые различия совсем не обязательно пред­полагают, что тест имеет смещения, официальная система зани­мает противоположную позицию и придерживается той точки зре­ния, которую Клайн (Kline, 1993) называет «эгалитаристским заб­луждением». Этот принцип предполагает, что все этнические и половые группы должны иметь одинаковые базовые уровни всех способностей, и если тесты дают основания для других заключе­ний, то с этими тестами, должно быть, что-то не в порядке. По­этому, используя тесты для отбора персонала, необходимо быть уверенным в том, что они практически свободны от влияния груп­повых различий.

Задание для самопроверки 17.2

Выше в этой главе подчеркивалось, что неправильно считать, будто тест имеет смещение просто потому, что он обнаруживает групповые различия. Предположим, что вы предъявляете тест, чтобы отобрать соискателей для определенной работы, и находите, что какой-либо конкретный тест достаточно хорошо предсказывает деловую успеш­ность (г = 0,3), но обнаруживаете, что оценки мужчин-соискателей заметно ниже, чем оценки женщин-соискателей (например, на поло­вину стандартного отклонения).

(а) Что произойдет, если тест будет использоваться в таком виде?

(б) Какие непсихологические факторы могут объяснить наблюдаемые между полами различия в успешности?

(в) Какие шаги можно предпринять?

Внутренние смещения в тестах

Тип смещения, описанный выше, называется внешним сме­щением, поскольку при этом исследуется связь между тестовыми оценками и некоторым внешним критерием. Однако совсем не

обязательно иметь внешний критерий, чтобы выявить факт сме­щения тестовых оценок, поскольку возможно, что тест может вклю­чать несколько заданий, которые по содержанию явно направле­ны против одной или более групп. Другими словами, они могут оказаться существенно более трудными для членов одних групп по сравнению с другими. Для того чтобы выделять такое «внутреннее смещение», было разработано несколько методов, а Остерлинд (Osterlind, 1983) и Бек (Berk, 1982) представили превосходное обсуждение этих проблем. Я упомяну только два подхода.

Представим себе, что много людей выполняют тест способно­стей, и каждый ответ оценивается как правильный или непра­вильный. Этих индивидуумов можно классифицировать как членов одной или более групп (например, соответственно полу или этни­ческой принадлежности). Чтобы упростить изложение, мы скон­центрируемся только на половых различиях и допустим, что тест состоит из 50 заданий. Можно реализовать смешанную модель (меж­ду- и внутри-) анализа вариативности тестовых оценок, исполь­зуя «пол» (два признака) как межиндивидуальный фактор, а «за­дания» (50 уровней) — как внутрииндивидуальный фактор. Таким образом, мы обрабатываем ответы на все 50 заданий теста, рас­сматривая их как различные уровни одного внутри индивидуаль­ного фактора. Таблица, полученная в результате применения ме­тода ANOVA в этом анализе, будет показывать значимость:

• эффекта «задания»;

• эффекта «группы»;

• эффекта «взаимодействия группа х задание».

Эффект «задания» определяет, все ли задания теста имеют оди­наковый уровень трудности. Почти определенно они не будут оди­наково трудны, поэтому обычно можно гарантировать, что этот член действительно будет очень важным. Однако этот компонент дисперсии не представляет никакого особого интереса для выде­ления смещения.

Эффект «группы» говорит о том, в какой степени мужчины и женщины склонны иметь одинаковые средние показатели по зада­ниям теста. Он также не вызывает большого интереса, хотя при­сутствие существенных групповых различий будет представлять проблему, если кто-то намеревается использовать тест для отбора или распределения.

Действительно интересным является эффект «взаимодействия

группа х задание». Если он статистически значим, это означает, что некоторые задания являются более легкими для одной груп­пы, чем для другой. Иными словами, распределение оценок по некоторым заданиям смещено. Можно точно обнаружить такие задания, нанося на график эффекты взаимодействия, проверяя простые эффекты и т.д. Затем они могут быть удалены из теста. Таким образом, констатация значимого «взаимодействия группа х х задание» может указать на то, что некоторые элементы теста проблематичны.

Этот подход имеет одну трудность, состоящую в том, что мощ­ность статистической процедуры влияет на оценку значимости дан­ного взаимодействия. На практике это означает, что, если анализ выполняется на небольшой группе людей, маловероятно, что уда­стся выделить слабую степень смещения. Однако если выборки вклю­чают тысячи индивидуумов, будет видно, что почти каждое зада­ние обнаруживает статистически значимую (хотя и небольшую) степень смещения. Для полноты картины мне следует признать, что, как известно, этот подход имеет некоторые проблемы, упо­минаемые Остерлиндом (Osterlind, 1983) наряду с другими, хотя, на мой взгляд (и по моему опыту), он может способствовать выяв­лению задания со значительной степенью смещения.

Второй метод обнаружения внутренних смещений базируется на принципах теории сложности заданий, обсуждаемой в главе 16. Предположим, что параметры задания устанавливаются по каж­дому из них отдельно для испытуемых-мужчин и испытуемых-женщин и наносятся на график в виде характеристической кри­вой задания (ХКЗ). Если задание не обнаруживает смещений, устанавливаемые параметры способностей, дискриминации и уга­дывания должны быть в конечном счете идентичны для мужской и женской выборок. Другими словами, две характеристические кривые задания должны точно совпадать друг с другом. Очевидно, что совсем не тот случай изображен на рис. 17.2. Здесь задания, по-видимому, оказались значительно более легкими для женщин, чем для мужчин, особенно в случаях, когда способности индиви­дуумов находятся в интервале от —1 до 3. Чтобы количественно оценить смещение параметров задания, могут быть использованы такие статистики, как площадь между двумя характеристически­ми кривыми. Все это оказывается несколько более сложным, чем кажется вначале (поскольку целесообразно учитывать точность, с которой оцениваются параметры задания, т.к. от нее зависит на-

Рис. 17.2. Характеристические кривые, демонстрирующие параметры одного и того же задания теста у мужчин и женщин.

дежность утверждений, что оно имеет смещение). Другая пробле­ма возникает при использовании трехпараметрической модели. Ве­личина параметра «с» (параметр «угадывание», или «псевдослу­чайность», определяющий значение, при котором график вырав­нивается в левой части) в действительности должна быть одинаковой в обеих группах, в противном случае площадь между двумя графиками становится неопределяемой (Raju, 1988). Пре­имущество исследования смещений таким способом состоит в том, что можно выделить весьма слабые эффекты.

Задание для самопроверки 17.3

Как бы вы интерпретировали вариант смещения, показанный на ха­рактеристической кривой задания, представленной на рис. 17.3?

Я считаю, что целесообразно рассматривать внутренние (при­сущие самому заданию) смещения во всех случаях разработки и использования теста. Представим себе, например, что тест, состо­ящий из 40 заданий, включал 20 заданий, которые были намного

: легче для женщин, чем для мужчин, и 20 заданий, которые были намного легче для мужчин, чем для женщин. Если просто искать

г значимые различия в общих оценках двух групп, вполне возмож-

Рис. J7.3. Характеристическая кривая задания, демонстрирующая срав­нительно более сложный вариант смешения.








Дата добавления: 2015-03-03; просмотров: 533;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.047 сек.