ВАЛИДНОСТЬ ТЕСТОВ

 

Проблемы валидизации психологических тестов являются цент­ральными для дифференциальной психометрики, но, к сожалению, до сих пор решенными не до конца. Решение этой проблемы зависит не от статистического аппарата, а от уровня развития теоретического аппарата дифференциальной психологии.

Валидность и надежность. Валидность (или обоснованность) всякой процедуры измерения состоит в однозначности (устойчивос­ти) получаемых результатов относительно измеряемых свойств объек­тов, т, е. относительно предмета измерения. Отличие понятия валидности от надежности измерения удобно раскрывать с помощью раз­личения «объекта» и «предмета» измерения. Надежность - это устой­чивость процедуры относительно объектов. Надежность не обязательно предполагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определенную процедуру измерения, показывает ее надежность -способность устойчиво различать объекты, но вопрос о валидности остается открытым.

Если в сенсорной психофизике вопрос о валидности измерений оказывается в значительной степени затушеванным тем обстоятель­ством, что простейшие физические стимулы достаточно однозначно детерминируют измеряемые свойства ощущений, то в дифференци­альной психометрике значимость проблемы валидности резко возра­стает. Здесь ситуация подобна той, когда в психофизическом опыте испытуемому не указывают, по какому именно параметру следует срав­нивать стимулы. Пусть испытуемый А понял инструкцию так, что стимульные объекты надо сравнивать по весу, а испытуемый Б - по раз­меру. Если процедура измерения будет повторена по отношению к тем же объектам, то она даст вполне устойчивые данные относитель­но объектов, но не даст валидной информации ни о шкале ощущений «веса», ни о шкале ощущений «размера».

При измерении способностей предъявляемый тест отнюдь не обя­зательно актуализирует именно тот психический процесс, который предполагается измерить. Например, столкнувшись с уже встречав­шейся однажды задачей (например, с анаграммой «дзиканпр»), испы­туемый может начать запоминать просто то решение, к которому он уже однажды пришел (слово «праздник»), чем заново решать эту за­дачу. Здесь будет измеряться скорее уровень словесной памяти, чем уровень вербального интеллекта. Точно так же реальная валидность некоторых тестов раскрывается только в результате значительного опыта работы с ними. Например, доказано, что ряд тестов, внешне вы глядящих интеллектуальными, на деле измеряют скорее личностно-стилевые особенности индивида, чем операциональные возмож­ности интеллекта, например, методика «креативного поля» Д. Б. Бо­гоявленской.

Устойчивость теста относительно объектов (испытуемых) явля­ется необходимым, но не достаточным условием его устойчивости относительно измеряемых атрибутов (свойств) объектов. Надежность является необходимым, но не достаточным условием валидности. Отсюда вытекает основное соотношение психометрики:

 

валидность ≤ надежность.

 

Это означает, что валидность теста не может превышать его надеж­ность.

Данное соотношение, однако, неверно трактовать как указание на прямую пропорциональную связь валидности и надежности. По­вышение надежности отнюдь не обязательно приводит к повышению валидности[15]. В терминах А. Анастази валидность определяется ре­презентативностью теста относительно измеряемой области поведе­ния. Если эта область поведения складывается из разнообразных фе­номенов, то содержательная валидность теста автоматически требует представленности в нем моделей всех этих разнообразных феноме­нов. Возьмем глобальное понятие «речевая способность» (этому психолингвистическому термину в традиционной тестологии соответству­ет термин «вербальный интеллект»). Сюда относятся такие относи­тельно независимые друг от друга навыки, как навыки письма и чте­ния. Если заботиться о содержательной валидности соответствую­щего теста, то нужно ввести в него группы заданий на проверку этих довольно разных по своему операциональному составу компонентов вербального интеллекта. Вводя разнородные пункты и субшкалы (суб­тесты), мы обязательно сокращаем внутреннюю согласованность, од­номоментную надежность теста, но зато добиваемся существенного повышения валидности. Таким образом, для расширения области при­менения теста психодиагност должен избегать излишнего повыше­ния внутренней согласованности. Одновременно с этим снижением внутренних корреляций между различными пунктами теста (об этом уже говорилось в разделе 3.1) обязательно исчезает отрицательный эксцесс на кривой распределения тестовых баллов, и она все более приближается по форме к нормальной кривой.

Эмпирическая валидность. Если в случае с содержательной ва-лидностью оценка теста производится за счет экспертов (устанавли­вающих соответствие заданий теста содержанию предмета измере­ния), то эмпирическая валидность измеряется всегда с помощью ста­тистического коррелирования: подсчитывается корреляция двух ря­дов значений - баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности.

Прагматические традиции западной тестологии привязывали эм­пирическую валидность теста к внешним для психологии социально-прагматическим критериям. Эти критерии являются показателями, обладающими непосредственной ценностью для определенных об­ластей практики. Практика всегда имеет целью либо повысить, либо понизить эти показатели. Например, в области педагогической пси­хологии это «успеваемость» (которую надо повысить), в психологии труда это «производительность труда» и «текучесть кадров», в меди­цине - «состояние здоровья пациента», в психологии управления -«совместимость», «срабатываемость» коллектива, в юридической пси­хологии - «преступность» (которую надо понизить) и т. п.

Ориентируясь непосредственно на эти категории, психолог, пы­тающийся скоррелировать результаты теста с этими показателями, фактически решает сразу две задачи: задачу измерения валидности и задачу измерения практической эффективности своей психодиагнос­тической программы. Если получен значимый коэффициент корреля­ции, то можно считать, что решены с позитивным результатом сразу обе эти задачи. Но если корреляции не обнаружено, то остается нео­пределенность: либо невалидна сама процедура (тестовый балл не отражает, например, стрессоустойчивость оператора), либо неверна гипотеза о наличии причинно-следственной связи между психичес­ким свойством и социально значимым показателем (стрессоустойчивость не влияет на процент аварийных ситуаций).

Таким образом, социально-прагматические критерии являются комплексными: они позволяют измерить валидность-эффективность, но не каждое из этих двух свойств теста отдельно. На практике пси­холога часто ожидает и еще более сложная ситуация, когда заказчик требует от психолога на основании полученного диагноза сразу же определенных мер по вмешательству в ситуацию (отбор, консульти­рование, обучение и т. п.). В этом случае повышение показателей (достоверное по сравнению с контрольной группой) доказывает од­новременно и валидность-эффективность диагностики, и эффектив­ность самого вмешательства. А отрицательный результат дает еще большую неопределенность, так как оказывается невозможным от­делить неэффективность вмешательства от низкой валидности ди­агностики.

Ориентация на социально-прагматические критерии, приводящие к склейке понятий «валидности измерения» и «причинного прогноза по результатам измерения», бесспорно, сдерживала и продолжает сдер­живать развитие концептуального аппарата дифференциальной пси­хологии. При этом суть самого предмета измерения: измеряемого пси­хического свойства - оказывается вне фокуса внимания не только заказчика, но и самого психолога, превращающегося в этом случае в тестолога, которого не интересует, что именно он измеряет, главное лишь, чтобы от этого «нечто» перекидывался мостик к полезному эффекту, обеспечивающему психологу социальное признание.

Процедура эмпирической валидизации. Организация выборки при эмпирической валидизации зависит от временного статуса критерия. Если этот критерий - событие в прошлом (ретроспективная валидизация), то к участию в психодиагностическом обследовании доста­точно привлечь только тех испытуемых, которые оказались на экстремальных полюсах по этому критерию[16]. В результате применяется ме­тод экстремальных (контрастных) групп. Коррелирование с суммар­ным баллом по тесту оценивается с помощью бисериального коэф­фициента по формуле (3.2.17). При этом в статусе дихотомической переменной (на месте отдельного пункта) оказывается сам критерий валидности: x— сумма баллов по тесту, полученных «высокой» груп­пой по критерию; - стандартная ошибка критерия, связанная с численностью «высокой» (р) и «низкой» (q) групп.

Если критерий - будущее событие (проспективная валидизация), то выборка должна быть составлена с запасом - с учетом вероятного объема экстремальных групп в будущем. Например, нужно выяснить, позволяет ли диагностика темперамента прогнозировать повышен­ный риск психосоматических заболеваний (гипертония, язва, астма и т. п.). Пусть на основании эпидемиологических исследований извес­тно, что в течение трех лет из. 1000 здоровых людей этими болезнями заболевают 57 человек. Это означает, что превентивной (предупреж­дающей) диагностикой должно быть охвачено около 2000 человек, чтобы получить численность «высокой» группы (заболевших) поряд­ка 100 человек. Проспективная валидизация выявляет прогностичес­кую эффективность диагностической процедуры. Высокая прогнос­тическая валидность доказывает как валидность самого измерения, так и наличие предполагаемой причинной связи.

Ретроспективная валидизация позволяет в лучшем случае решить только первую из двух задач. Например, если для исследования лич­ностной предрасположенности к совершению краж проведено обсле­дование лиц, находящихся под следствием (т. е. уже совершивших преступление), то выявление акцентированных черт «тревожности», «агрессивности» и т. п. еще не может интерпретироваться как свиде­тельство причинных факторов преступности - эти черты могут быть лишь следствием сложившихся обстоятельств: лишение свободы, уг­рызения совести и т. п. (Ратинов А. Р., 1979). Во многих медико-пси­хологических исследованиях был выделен особый диагностический синдром «госпитализации», который обнаруживается у любой кате­гории госпитализированных больных (обычно он выражается в по­вышении шкал «депрессии» и «ипохондрии» по MMPI – Шхвацабая, 1980). Очевидно, что подобные личностные сдвиги никак нельзя ин­терпретировать в смысле симптомов предрасположенности к опреде­ленным психогенным заболеваниям, ибо они относятся к следстви­ям, а не к причинам этих заболеваний.

Конструктная валидность. В отличие от прагматической валидизации собственно психологическую валидизацию порой оказыва­ется провести гораздо труднее в силу отсутствия какого-либо более объективного внутрипсихологического критерия, чем сам тест.

Наиболее благополучная ситуация имеется тогда, когда для из­мерения данного свойства в психологии уже имеется процедура с известной валидностью. В этом случае корреляция между балла­ми двух тестов - линейная (см. формулу 3.2.3) или ранговая (см. формулу 3.2.5)- указывает на то, обладает ли новый тест конвер­гентной валидностью по отношению к старому. Если новый тест обнаруживает высокую конвергентность результатов со старым и одновременно оказывается более компактным и экономичным 'в проведении и подсчете, то психодиагносты получают возможность использовать новый тест вместо старого.

Однако во многих случаях для измеряемого свойства психодиа­гност не может найти в литературе ни одного уже апробированного теста с известной валидностью. В этом случае он может сформулиро­вать ряд предсказательных гипотез о том, как будет коррелировать его новый тест с другими тестами, измеряющими родственные характеристики испытуемых. Эти гипотезы выдвигаются на основе теоретических представлений об измеряемом свойстве. Их подтвержде­ние указывает на валидность выдвигаемого конструкта, т. е. на конструктную валидность теста. В западной литературе это операциональное определение конструктяой валыидности называется предполага­емой валидностью (assumed validity).

Представления о конструктной валидности тестов постоянно развиваются с пополнением репертуара методик. Эмпирические иссле­дования взаимосвязей результатов, получаемых с помощью разных методик, обогащают теоретические представления об измеряемых свойствах.

С другой стороны, понятие конструктной валидности указывает на высокую зависимость эмпирических связей теста от теоретичес­ких представлений его автора об измеряемом свойстве. Для иллюст­рации приведен пример взаимоотношений между двумя популярны­ми тест-опросниками: MAS Ж. Тейлор и EPI Г. Айзенка. Многочис­ленные корреляционные исследования, проведенные на репрезента­тивных выборках, показали, что шкала MAS (тревожность) Ж. Тейлор положительно коррелирует со шкалой «нейротизм» и отрицательно со шкалой «экстраверсия» Айзенка. Эти соотношения можно проил­люстрировать графически (рис. 10): вектор MAS оказывается распо­ложенным в квадранте «Нейротизм - Интроверсия», образованном си­стемой из ортогональных (статистически независимых) факторов EPL С точки зрения концепции Г. Айзенка, эти данные можно рассмат­ривать как свидетельства низкой валидности шкалы Ж. Тейлор: MAS коррелирует не только с релевантным фактором «нейротизм», но и с иррелевантным фактором «интроверсия». С этой точки зрения, оп­росник EPI оказывается просто нечувствительным к особой разно­видности «нейротизма» - к нейротизму (тревожности) экстравертов; в перечне пунктов MAS отсутствуют высказывания, в которых могла бы проявиться тревожность экстраверта. Однако с точки зрения тоготеоретического смысла, который приписывают показателям MAS К. Спенс и Ж. Тейлор, эта ситуа­ция вполне закономерна, жела­тельна и никак не является арте­фактом - следствием дефекта их диагностического средства. Со­гласно К. Спенсу, пытавшемуся перенести на человеческое пове­дение теорию научения Халла, MAS измеряет общий уровень драйва - неспециализированного побуждения, которое достигает максимума как раз при сочетании нейротизма (специфическая ак­тивация по Г. Айзенку) и интро-версии (неспецифическая активация)

 

Рис. 10. Векторная модель соотношения показателя «Тревожность» по тест-опроснику MAS с факторами тест-опросника EPI

 

Таким образом, вовсе не всегда краткие названия тестов од­нозначно выражают теоретический статус диагностического конст­рукта - понятия об измеряемом свойстве.

Конвергентная и дискриминантная валидность. От того, как пси­холог определяет диагностический конструкт, зависит стратегия вклю­чения в тест определенных пунктов. Если Айзенк определяет свой­ство «нейротизм» как независимое от экстраверсии-интроверсии, то это означает, что в его опроснике примерно поровну должны быть представлены пункты, с которыми будут соглашаться невротичные интроверты и невротичные экстраверты (векторы этих пунктов дол­жны быть примерно поровну распределены в правом и левом нижних квадрантах; см. рис. 10).-Если же на практике окажется, что в тесте будут преобладать пункты из квадранта «Нейротизм-Интроверсия», то, с точки зрения теории Айзенка, это означает, что фактор «нейро­тизм» оказывается нагруженным иррелевантным фактором - «интроверсией». (Точно такой же эффект возникает, если появится перекос в выборке - если в ней будет больше невротичных интровертов, чем невротичных экстравертов.)

Для того чтобы не сталкиваться с такими сложностями, психо­логи хотели бы иметь дело с такими эмпирическими показателями (пунктами), которые однозначно информируют только об одном факторе. Но это требование реально никогда не выполняется: вся­кий эмпирический показатель оказывается детерминированным не ; только тем фактором, который нам нужен, но и другими - иррелевантными задаче измерения (рис. 11).

На рис. 11 постоянным для всех показателей является релевант­ный фактор А, но каждый раз он оказывается сопряжен с иррелевант-ными факторами - X, К и Z. Задача состоит в таком подборе пунктов,

 

чтобы все потенциальные иррелевантнв!е факторы были уравнове­шены, т. е. чтобы ни один из них не встречался бы чаще других на множестве показателей (пунктов), включенных в тест.

Рис, 11. Связь эмпирических показателей П1, П2, П, с релевантным (измеряемым) фактором А и с иррелевантными («шумовыми») факторами X, Y, Z, обусловливающими невалидность показателей

 

Таким обра­зом, по отношению к факторам, которые концептуально определяют­ся как ортогональные к измеряемому (встречающиеся с ним во всех комбинациях), составитель теста должен при отборе пунктов приме--нить стратегию искусственного балансирования (Готтсданкер Р., 1982);

Соответствие пунктов измеряемому фактору обеспечивает конвергентную валидность теста. Сбалансированность пунктов относи­тельно иррелевантных факторов обеспечивает дискриминантную валидностъ. Эмпирически она выражается в отсутствии значимой кор­реляции с тестом, измеряющим концептуально независимое свойство.

С точки зрения теории Айзенка, тест Ж. Тейлор не обладает дискриминантной валидностью по отношению к факторам «экстраверсия-интроверсия», хотя и обладает определенной конвергентной ва­лидностью по отношению к релевантному фактору - «нейротизм».

Экспертная эмпирическая валидизация. В отсутствие какого-либо уже валидизированного теста, параллельно измеряющего изучаемое свойство, а также в отсутствие разработанного теоретического кон­текста, позволяющего проверять конструктную валидность; психодиагност оказывается перед необходимостью привлечения экс­пертов к валидизации теста. В отличие от экспертного анализа содер­жания теста., эмпирическая экспертная валидизация предполагает ра­боту экспертов не с тестом (лучше, чтобы о нем эксперты вообще ничего не знали), а с испытуемыми из выборки стандартизации.

Необходимо экспертам обеспечить стандартные условия для на­блюдения за испытуемыми. Но не всегда такое стандартизованное на­блюдение удается организовать. Даже если предприняты серьезные усилия по организации наблюдения за поведением испытуемых в ка­кой-либо искусственной лабораторной ситуации, такое наблюдение все равно будет значительно уступать по информативности полевому наблюдению - в естественных условиях. Если измеряемое свойство теоретически определено как устойчивая универсальная черта лич­ности - как диспозиция к инвариантному поведению в широком спек­тре ситуаций (см. главу 4), то и отдельного полевого наблюдения ока­жется недостаточно для получения полноценного экспертного критерия валидности.

Поэтому на практике часто прибегают к оценкам особого типа -к субъективным оценкам, которые выносят испытуемому люди из его круга, имеющие опыт реального общения с ним. С учетом этого, про­цедура оценивания приспосабливается к обычным людям, не являю­щимся психологами. На психолога падает большая нагрузка по со­ставлению детальной инструкции оценщикам, однозначно задающей смысл оцениваемой характеристики. Лучшие условия для такой процедуры возникают при наличии группы испытуемых, тесно общаю­щихся между собой; тех, которые могут одновременно побывать и испытуемыми по отношению к тесту, и оценщиками по отношению друг к другу. В отечественной литературе эта процедура получила со­кращенное обозначение ГОЛ - «групповая оценка личности» (Кузь­мин Н. В., Семенов В. С., 1977).

Для того чтобы групповая оценка личности была источником дей­ствительно валидной информации, оценщики должны согласованно оценивать испытуемых. Если в оценках разных оценщиков нет согла­сованности, то это означает, что либо оцениваемое свойство не про­явилось у объекта оценивания, либо оценщики по-разному проинтерпретировали инструкцию. Для измерения согласованности должна быть составлена таблица с оценками (табл. 6).

Таблица 6

Оценщики Испытуемые О1 О2 Оk
И1 x11 x12 x1k C1
И2 x21 x22   x2k C2
         
Иn xn1 xn2   xnk Cn

 

Методы анализа данных, содержащихся в такой таблице, формаль­но совершенно эквивалентны тем методам, которые применяются для обработки таблиц «испытуемые - пункты» (см. раздел 3.1), В частно­сти, суммы по строкам дают суммарные баллы, полученные каждым испытуемым у всех оценщиков. Таким образом, оценщики в данном случае оказываются формально в роли пунктов теста. Рассчитывая попарные корреляции между различными столбцами этой таблицы, можно получить коэффициенты согласованности для отдельных пар оценщиков. Глобальной мерой согласованности оценщиков может служить коэффициент надежности а Кронбаха - см. формулу (3.2.8).

Если же групповая оценка не обнаруживает надежности, то она не может использоваться в качестве критерия валидизации при про­верке валидности теста.

Эмпирическое значение коэффициента валидности рассчитыва­ется как линейная или ранговая корреляция между двумя рядами зна­чений: тестовыми баллами и суммарными баллами экспертной оцен­ки. Это эмпирическое значение при наличии невысокого коэффици­ента надежности критерия корректируют по формуле

(3.3.1)

 

где - эмпирическая корреляция с критерием;

ас — надежность критерия;

rtx - корреляция с «истинным» критерием («истинная» валидность теста).

Анализ пунктов по критерию валидности. Валидность всего тес­та целиком зависит от валидности входящих в него пунктов. Макси­мальная валидность достигается за счет отбора таких пунктов из пи­лотажной батареи, которые, обладая значимой корреляцией с крите­рием, минимально коррелируют между собой. Отбор пунктов имен­но по критерию валидности обеспечивает максимальную прагматическую эффективность теста. Вручную (на калькуляторе) та­кой отбор можно произвести, рассчитав бисериальную корреляцию (или фи-корреляцию) критерия с каждым пунктом из пилотажной батареи, - см. формулы (3.2.15) и (3.2.17). Компьютер позволяет ис­пользовать более эффективный алгоритм, основанный на анализе ча­стных корреляций между критерием и пунктами и предполагающий построение уравнения множественной регрессии (Аванесов В. С., 1982, с. 153-157). В результате в таком уравнении каждый пункт по­лучает весовой коэффициент[17], количественно выражающий его вклад в критерий, не сводимый к вкладу других пунктов, т. е. поиск опти­мального набора пунктов автоматизируется. X. Гаррет приводит сле­дующую яркую иллюстрацию эффективности алгоритма, позволяю­щего подобрать оптимальный набор пунктов. Пусть имеется 20 пунк­тов, каждый из которых имеет корреляцию с критерием порядка 0,30. Оказывается, если эти пункты в среднем коррелируют друг с другом на уровне = 0,60, то множественная корреляция суммарного тесто­вого показателя с критерием равняется 0,38, если же га = 0,30, мно­жественная корреляция повышается до 0,52. Наконец, при rtj= 0,10

эффективность (валидность) теста достигает весьма высокого уров­ня: 0,79. Те же самые проблемы возникают при подборе оптимальной батареи тестов, направленных на прогнозирование какого-то одного социально ценного показателя (успеваемость, производительность труда и т. п.).

Как уже указывалось в разделе 3.1, тест, обладающий высокой критериальной валидностью должен давать монотонную зависимость величины критерия от тестового балла (см. рис. 6). Для того чтобы получить монотонную линию регрессии, психодиагност должен вклю­чить в тест X только такие пункты, которые являются валидными по критерию С. В противном случае на кривой неминуемо появятся про­валы[18]. Крутизну линии регрессии можно существенно повысить за счет нацеленного отбора из первоначальной батареи только таких за­даний, которые обладают значимо высокой корреляцией (или регрес­сионным коэффициентом в уравнении множественной регрессии) с критерием.

После отбора валидных пунктов должна быть произведена пере­крестная валидизация (см. Анастази А., 1982, с. 197). В чем ее смысл? Если при анализе корреляций между батареей из 200 заданий и ка­ким-то критерием получают 10 заданий, значимо коррелирующих е критерием на уровне ошибки р < 0,05, то это может быть следствием чисто случайного совпадения (сравните 10/200=0,05). Чтобы убедиться в том, что отобранные пункты теста действительно могут различать (или прогнозировать) критерий, нужно рассмотреть, как коррелиру­ют с критерием эти пункты на другой выборке, которая не использо­валась при их отборе.

Простой метод реализации принципа перекрестной валидизации состоит в том, что вся выборка делится на две случайные половины и производится раздельный расчет корреляций пунктов с критерием для-. каждой половины выборки. Если выделенные (значимые) пункты совпадают, то перекрестную валидизацию можно считать удачной.

Метод критериального тестирования очень трудоемок. .Прак­тически невозможно построить критериальный тест за счет одной статистики, сколь бы мощными выборками и батареями заданий мы ни располагали. Необходима работа над содержательной валидностью заданий. Критериальное тестирование имеет ограни­ченное применение в задачах построения методик с широкой областью применения.

Следует еще раз подчеркнуть, что анализ валидности отдельных пунктов служит не только прагматическим целям, но может и должен служить целям углубления представлений о содержательно-теоретическом смысле измеряемого свойства: на основании содержательно­го анализа пунктов, отобранных по критерию, психолог уточняет и корректирует свою первоначальную теоретическую схему, свое по­нимание измеряемого свойства.

Достоверность самоотчета. Рассматривая общую проблемы валидности целесообразно выделить вопрос об обеспечении ва­лидности процедур стандартизованного самоотчета. Сюда относят­ся различные техники шкалирования, классифицирования, срав­нения и тест-опросники. Вербальная форма тестового материала порождает у испытуемого определенные встречные гипотезы о цели тестирования. Если ситуация диктует испытуемому необходимость фальсификации ответов, то он редко отказывается от этой возмож­ности.

Валидность — характеристика любых измерений, в том числе и физических. Специфические проблемы валидности, связанные с актив­ностью человека как объекта психодиагностики, целесообразно обозначить особым образом - проблемы обеспечения достоверности.

Психологические факторы, от которых зависит достоверность са­моотчета, условно можно сгруппировать в следующие классы:

1. Факторы знания. У испытуемого может быть более или менее четкое представление о следующем: а) свойственно ли ему в действи­тельности или нет тестируемое поведенческое проявление (с некото­рыми ситуациями, имплицитно подразумеваемыми в вопросе тест-оп­росника, испытуемый мог на практике никогда не встречаться: напри­мер, утверждение «После выигрыша в спортлото Вы покупаете боль­ше лотерейных билетов» подразумевает, что испытуемый, во-первых, играет в спортлото и, во-вторых, выигрывает); б) какое личностное свой­ство скрывается у психолога за тем или иным конкретным поведением, описанным в суждении; в) как это свойство соотносится с общеприня­тыми моральными нормами и признаками социального успеха.

2. Фактор социальной желательности. Обозначает тенденцию испытуемого давать о себе социально одобряемую информацию. Сила этой тенденции зависит как от общей внеситуативной установки испы­туемого на морализацию «Я-образа» и социальную успешность, так и от того, насколько эту установку актуализирует сама ситуация тестиро­вания. Однако эта тенденция не будет давать систематического искаже­ния, если испытуемые не смогут разгадать направленность теста-оп­росника и связать диагностируемое свойство с тем или иным полюсом социальной желательности. Таким образом, действие этого фактора до некоторой степени опосредовано действием факторов знания. Однако при диагностике личностных свойств, тесно связанных с психической «нормальностью» или «социальной успешностью», фактор социальной желательности ответа обусловливает очень серьезные искажения.

3. Факторы индивидуальной тактики. Здесь подразумевается действие «Я-концепции» («Я» для себя) и «Я-образа» («Я» для дру­гих) на ситуативную тактику испытуемого в момент тестирования. Выполняя тест, испытуемый всегда находится в невольном диалоге с самим собой и в своих ответах на вопросы раскрывает себя не только для других, но и для себя самого. Испытуемый стремится подтвер­дить «Я-концепцию» или фальсифицировать определенный «Я-образ» с заданными свойствами. Как правило, в ситуациях высокого соци­ального риска «Я-образ» полностью доминирует: например, преступ­ник при экспертизе стремится прежде всего предстать больным или неприспособленным к жизни, хотя в действительности ему было бы приятно думать о себе как о вполне адаптированном здоровом чело­веке. Точно так же склонны подчеркивать свои трудности и проблемы клиенты, обратившиеся за помощью к психологу или психотера­певту (чтобы вызвать к себе его повышенное внимание). В менее рег­ламентированных ситуациях, наоборот, может доминировать мотива­ция самопознания: в этом случае испытуемый невольно стремится подтвердить с помощью теста свои гипотезы о самом себе.

Заслуживают внимания и особые формы отказа испытуемого от тестирования: позиционный стиль ответа (соглашательство или, на­оборот, отрицание), случайные ответы. Для выявления подобных от­казов обычно достаточно довольно простых мер: 1) для исключения влияния соглашательства (отрицания) применяются перечни с «пря­мыми» (ответ «верно» в пользу измеряемого свойства) и «обратны­ми» (ответ «неверно» в пользу измеряемого свойства) пунктами. Кро­ме того, производится подсчет баланса подтверждающих и отверга­ющих ответов: если баланс резко нарушается, то протокол признает­ся бракованным; 2) для выявления случайных ответов в большие перечни вводят вопросы-дубли (синонимические перефразы) или пря­мые повторы: если испытуемый слишком часто по-разному отвечает на одинаковые вопросы, значит, он применяет случайную тактику. Вводят также и крайне редкие утверждения, с которыми испытуемые, как правило, соглашаются только по ошибке.

Более изощренные методы требуются для борьбы с социальной желательностью. Ниже рассмотрены три наиболее часто используе­мых варианта.

1. Введение особых «шкал лжи» в диагностический вариант методики. Они составляются из вопросов-ловушек: тот или иной ответ на эти вопросы явно предопределен социальной желательностью. Если испытуемый набирает слишком высокий балл по этой шкале, его протокол бракуется. Более тонкий вариант — введение «шкал коррекции» (например, в MMPI): получение определенного балла по этим шкалам вызывает внесение поправок к баллу по другим шкалам, скоррелированным со шкалой коррекции. Величина поправок определяется коэффициентом линейной регрессии (измеренным в нормативном эксперименте) между баллами, полученными по шкале коррекции и основной диагностической шкале (шкале свойства).

2. Устранение или сбалансирование социальной желательности с помощью использования инструкции на преднамеренную фальсификацию результатов. Участникам пилотажных замеров кроме обычной инструкции дается дополнительная (во вторую очередь): «Заполните опросник от лица человека, желающего произвести самое благопри­ятное впечатление». Затем производится отбор пунктов на основании того, насколько процент ответов на них отличается от 50 процентов (значение, ожидаемое для пунктов, являющихся нейтральными с точ­ки зрения социальной желательности).

В качестве меры желательности в данном случае можно восполь­зоваться следующим коэффициентом:

 

(3.3.2)

 

где N (+) — сумма ответов «верно» на данный пункт при инструкции на фальсификацию;

N (-) - сумма ответов «неверно» в тех же условиях;

n - объем выборки.

Значимость коэффициента приближенно оценивается по крите­рию «хи-квадрат», определенному формулой (3.2.14), которой в пра­вой части вместо φ подставляется .

Поскольку инструкция на преднамеренную фальсификацию соз­дает условия, в которых социальная желательность суждений акцен­тируется, то значимыми следует считать такие высокие по модулю значения при которых , превышает теоретическое значение для квантиля

р < 0,001. Из таблицы для распределения «хи-квад­рат» находим =10,83. Таким образом, при наличии выборки объе­мом 50 человек . Это означает следующее: если

на i-й пункт более чем 36 испытуемых из 50 ответили «верно», то его нужно отнести к положительному полюсу шкалы социальной жела­тельности, если менее чем 14 ответили «верно» — к отрицательному. Такие пункты должны быть либо полностью исключены из опросни­ка (что редко удается), либо количество положительных и отрицатель­ных пунктов должно быть уравновешено.

Таким образом могут быть отобраны и пункты для шкалы лжи. Суммарный балл по этой шкале распределяется так, как показано на рис. 12. В качестве критерия разделения испытуемых выбирается критическая точка, которая позволяет минимизировать ошибки типа «про­пуск» (зачисление лживых испытуемых в число правдивых) и ошиб­ки типа «ложная тревога» (зачисление правдивых в число лживых). Положение критической точки на шкале можно менять в зависимос­ти от баланса цены двух типов ошибок: в некоторых случаях «про­пуск» гораздо опаснее, чем «ложная тревога».

 

Рис. 12. Смещение распределения тестовых баллов по «шкале лжи» к полюсу высоких значений X при инструкции на выполнение теста-опросника с позиции «идеального» человека

Фальсифицирующая инструкция используется также и для иссле­дования степени «скрытности-открытости» формулировок вопросов. Например, испытуемым дается инструкция на симуляцию высокой тревожности по опроснику MAS Ж. Тейлор. В этом случае, как это уже было показано, ответы на многие пункты значимо изменяются. Такие пункты являются слишком открытыми — они информируют испытуемого об измеряемом свойстве и позволяют ему вносить тен­денциозные искажения в результаты в своих интересах.

3. С распространением факторного анализа чаще стала приме­няться стратегия «балансирования социальной желательности». При этом исследователь-психометрист задается целью обеспечить дискриминативную валидность своего теста относительно шкалы «соци­альной желательности». Это достигается с помощью факторного ана­лиза корреляций между пунктами. Факторный анализ в применении к одномерному тесту-опроснику, как правило, выделяет два фактора: относящийся к самому измеряемому свойству и относящийся к соци­альной желательности. На рис. 13 схематически представлено фак­торное пространство для опросника «Склонность к риску».

 

 

Рис. 13. Иллюстрация рассеяния векторов (., изображающих пункты теста-опросника в пространстве двух факторов: релевантного и иррелевантного. Выше и ниже штриховых линий - области низкой достоверности

 

Каждый вопрос представлен вектором, задаваемым проекцией на релевантный фактор - Склонность к риску и иррелевантные «Социаль­ное одобрение» и «Социальное порицание». Требование конвергент­ной валидности по отношению к измеряемому свойству формулирует­ся как требование к пунктам - иметь высокую проекцию (нагрузку) на горизонтальную ось. Дискриминативная валидность по отношению к социальной желательности - это требование иметь пренебрежимо ма­лую нагрузку на вертикальную ось. Очевидно, имеются два способа устранить эффект социальной желательности: либо выкинуть все пун­кты, нагруженные фактором социальной желательности (выше или ниже штриховых линий, либо уравновесить их количество на полюсах соци­альной желательности.

Понятно, что при таком способе освобождения от социальной же­лательности диагностическая шкала всегда оказывается так называе­мой «ß-шкалой», в отличие от «а-шкал», у которых максимум жела­тельности достигается на одном из полюсов, у «ß-шкал» максимум желательности достигается в «золотой середине», т. е. линия регрес­сии желательности по «бетта-шкале» оказывается криволинейной (рис. 14). Если применить такой метод к построению опросника «Склон­ность к риску - Осторожность», то в результате диагностический кон­структ автоматически становится «бета-шкалой»: и слишком высокая склонность к риску, и излишняя осторожность - одинаково нежелатель­ны, тогда как оптимум лежит посередине между крайностями.

 

Рис. 14. Схематическая иллюстрация «-шкалы, связанной с фактором социальной желательности монотонной зависимостью, и ß-шкалы, связанной с этим фактором криволинейно – с максимумом в области «золотой середины»

Из трех перечисленных выше методов первый относится к отсеву испытуемых и требует введения в перечень вопросов для шкалы «лжи». Второй и третий методы позволяют отобрать только такие пункты, ко­торые обеспечивают устранение социальной желательности. Но они, как правило, трансформируют сам конструкт, который обязательно ста­новятся ортогональным к социальной желательности. При необходи­мости диагностирования свойств, обязательно коррелированных с же­лательностью, единственный метод состоит в применении шкал кор­рекции и корректирующих поправок, но и этот метод нельзя считать вполне надежным. Так что диагностика свойств, сопряженных с соци­альной желательностью, в ситуациях экспертизы всегда рискованна.

С другой стороны, в ситуации, когда сам испытуемый заинтере­сован в точных результатах («ситуация клиента»), психодиагност мо­жет пользоваться тестами-опросниками, не опасаясь артефакта соци­альной желательности.

Обычно в ходе практической проверки достоверности опросника психологу при обработке результатов пилотажного исследования при­ходится иметь дело с матрицей данных, подобной таблице, представ­ленной на рис.15.

Ключ по шкале лжи L изображен на рис. 15 в виде второго столб­ца — справа от столбца, содержащего ключ по основной диагности­ческой шкале С. Если в строке k+1 зафиксированы баллы, подсчитан­ные по основному ключу, то в строке k+2 - баллы, подсчитанные по ключу для шкалы лжи. Баллы Хk+2 отражают величину тенденции диссимуляции (социальной желательности) у данного испытуемого (низкие значения Хk+2 отражают тенденцию симуляции асоциальности или агравации - отягощения психической дезадаптации).

 

Рис. 15 Схематическое представление таблицы «пункты (t) - испытуемые (S)», вектора суммарных баллов Хk+1, вектора с баллами по шкале лжи Хk+2, вектора С со значениями ключа по основной шкале, вектора L с ключом по шкале лжи

 

Для успешного использо­вания шкалы лжи пункты, от­носящиеся к этой шкале (име­ющие ненулевые значения L), должны быть перемешаны в тестовом буклете с пунктами-вопросами, тестирующими основное психическое свой­ство (в противном случае -если все они собраны вмес­те - достоверность искусст­венно возрастает).

Оценка достоверности пунктов достигается с помо­щью статистической проце­дуры, аналогичной процеду­ре измерения внутренней валидности пунктов (надежно­сти-согласованности - см. раздел 3.2): если при измере­нии внутренней валидности следует прокоррелировать каждую строку 1, 2,..., k со строкой k+l, то при измерении достоверности следует прокоррелировать каждую строку 1, 2,..., k со строкой k+2 (подходят точечно-бисериальный или четырехклеточный коэффициенты корреляции). Наиболее высокие по модулю значе­ния корреляции должны быть получены в этом случае для пунктов, из которых составлена сама шкала лжи (это подтверждает ее консистентность, дифференцирующую силу для данной выборки). Положитель­ная значимая корреляция для г (ti., Хk+2) пункта из основной шкалы Сi О указывает на то, что данный пункт оказывается «прямым» по шкале социальной желательности; отрицательная значимая корреляция ука­зывает на то, что данный пункт является «обратным» по этой шкале.

При подготовке особенно значимого психодиагностического обсле­дования, в котором надо принципиально исключить всякую возмож­ность преднамеренной фальсификации результатов, следует дополнить критерий оценки достоверности с помощью особой шкалы лжи еще одним критерием, основанным на использовании «фальсифицирующей инструкции», Для этого после обычной инструкции той же самой пи­лотажной выборке психолог дает инструкцию: «А теперь снова выпол­ните задание, но старайтесь описать себя так, чтобы выглядеть макси­мально благоприятно в глазах большинства других людей». В резуль­тате применения такой инструкции психолог получает дополнитель­ную таблицу, аналогичную таблице на рис. 15, только содержащую фаль­сифицированные данные. В таком случае кроме подсчета очень грубого индекса «желательности» по формуле (3.3.2) у психолога возникает возможность поэлементного сравнения ответов испытуемых на один и тот же вопрос в обычной и фальсифицированной диагностических си­туациях. Очевидно, что недостоверным следует считать вопрос, отве­ты на который будут изменены в фальсифицированной ситуации в оп­ределенном систематическом направлении. Здесь пригодится простей­ший критерий значимости изменений, основанный на распределении «хи-квадрат» (Рунион Р., 1982, с. 57-61). Для каждого пункта строится четырехклеточная матрица сопряженности:

«После»

+ -

А=40 В=36
С=22 D=48

«До» +

 

 

Здесь в клеточке А указана частота сохранения ответа «верно» на некоторый /-и вопрос (из 76 ответивших «верно» таких оказалось толь­ко 40 испытуемых), в клеточке В - частота изменения ответа «верно» на ответ «неверно» и т. д. Как видим, смена инструкции привела к значительным изменениям. Но для оценки значимого направления этих изменений автор критерия Макнимар предложил сравнивать между собой по критерию «хи-квадрат» только элементы В и С этой матрицы:

 

(3.3.3)

 

где - вычисленное эмпирическое значение статистики хи-квадрат

с одной степенью свободы. Для нашего примера =2,91, что ниже, чем граничное значение =3,84, и, следовательно, нулевая гипоте­за об отсутствии значимых направленных изменений не может быть отвергнута - пункт не является значимо нагруженным артефактным фактором социальной желательности и может быть включен в диаг­ностический вариант теста-опросника без изменений.

По результатам такого исследования удобно составить табличку К 2: в первом столбце -показатели корреляции пунктов со шкалой лжи, во втором - показатели значимости изменений при переходе к фальсификации. Безусловно достоверными можно считать только те пункты, которые не получили значимых :коэффициентов ни в первом, ни во втором столбце. Если таких пунктов оказывается слишком мало для составления надежной шкалы и если среди недостоверных пунктов достаточно много таких, которые обладают существенной внут­ренней (корреляция с суммарным баллом по основной шкале) или внешней (корреляция с критерием) валидностью, то следует прибегнуть к тактике балансирования: ввести в основную шкалу одинако­вое количество «прямых» и «обратных» пунктов по шкале социаль­ной желательности так, чтобы все четыре квадранта на рис. 13 были заполнены пунктами равномерно (среди «прямых» по основной шка­ле было бы поровну «прямых» и «обратных» по желательности, и среди «обратных» по основной - также поровну).

Без указанных предосторожностей тест-опросник неизбежно бу­дет давать систематическое искажение результатов (в сторону по­вышения или понижения баллов по основной шкале) всякий раз, ког­да испытуемый будет квалифицировать диагностическую ситуацию как ситуацию экспертизы.

Указанные проблемы и приемы обеспечения достоверности от­носятся не только к тест-опросникам, но и к другим техникам стан­дартизованного самоотчета, подверженным мотивационным искаже­ниям. Существует теоретическая возможность преодолеть все эти проблемы. Но на практике это оборачивается огромной эмпирико-методической работой.

Другой путь - управление процессами категоризации в ходе са­мой диагностики. В так называемой «репертуарной модификации» тест-опросника испытуемому специально предлагают выполнять тест не только от своего имени, но и от имени определенного репертуара ролей: «большинство людей», «моральный человек», «преуспевающий человек» и т. п. (Шмелев А. Г. и др., 1984). Извлечение практических выгод из подобной модификации обусловлено возможностью компь­ютерной обработки результатов либо сразу же после тестирования, либо даже в ходе самого тестирования (см. раздел 3.6).

Порядок действий психолога при проверке валидности. Очень трудно выделить универсальный алгоритм работы психолога по про­верке валидности, ибо существуют различные подходы к обеспече­нию валидности, обусловленные теоретико-методологическими раз­личиями определенных психологических школ. Для прагматически ориентированных тестологов (каковыми традиционно являлись до не­давнего времени почти все англо-американские специалисты) глав­ный момент - поиск операционально строго заданного социально-прагматического критерия валидности, по отношению к которому ди­агностические тесты и их составные части (пункты) подбираются как бы автоматически -в ходе эмпирико-статистических процедур сбора и корреляционного анализа результатов. Но, конечно, неверно было бы приписывать этому подходу «бездумность в опоре на статистику»: ведь статистика только тогда позволяет выявить валидное подмноже­ство пунктов, когда исходное множество подобрано не случайно - с использованием априорных корректных содержательно-психологичес­ких представлений.

Современные методологи психологического тестирования факти­чески единодушно приходят к признанию (как наиболее оптималь­ной) рационально-эмпирической стратегии конструирования теста и проверки валидности. Перечислим этапы этой стратегии.

1. Теоретический анализ диагностического конструкта, разработка теоретической концепции тестируемого психического свойства. Вы­явление (с использованием литературы) системы взаимосвязанных ди­агностических конструктов, внутри которой новый диагностический конструкт характеризуется определенными структурно-функциональ­ными связями и отношениями. Прогнозирование результатов корре­ляционных экспериментов по проверке конструктной валидности.

2. Выделение составных частей теоретического конструкта, фор­мулирование системы «эмпирических индикаторов» - операциональ­но однозначных показателей, фиксирующих проявление конструкта в различных поведенческих ситуациях. Конструирование пунктов теста.

3. Формулирование релевантного социально-прагматического критерия для проверки валидности.

4. Планирование и проведение корреляционного исследования (или квазиэксперимента) на специально подобранной выборке испы­туемых, для которых известно значение критериального показателя, а также результаты по родственным психологическим тестам. При необходимости на этих испытуемых проводятся дополнительные те­сты с целью получить возможность корреляционной проверки конст­руктной валидности теста (экспертные оценки в данном случае рас­сматриваются в статусе одной из возможных параллельных процедур получения критериальной или психологической информации). Оцен­ка валидности эмпирических индикаторов.

5. Исследование достоверности результатов (если используется самоотчет и диагностическая ситуация может быть воспринята ис­пытуемыми с настороженностью). Оценка достоверности эмпиричес­ких индикаторов.

6. Отсев пунктов, не удовлетворяющих критериям валидности и достоверности. Измерение надежности для сокращенной шкалы, со­стоящей только из валидных пунктов. Если надежность оказывает­ся невысокой, то психолог снова возвращается к этапу 1 - уточняет теоретические представления.








Дата добавления: 2015-04-05; просмотров: 1541;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.063 сек.