Актуальность технического обслуживания 11 страница

• склонность соглашаться: установлено, что люди склонны соглашаться с утверждениями;

• настроение студента;

• случайная ошибка: если вы зададите студенту тот же самый вопрос двумя минутами позже, можете получить несколько отличающийся ответ.

Ваш список, вероятно, содержит и другие важные перемен­ные. Множество посторонних факторов определяет, каким обра­зом индивидуум будет отвечать на вопрос в личностном тесте, и некоторые из них мы рассмотрим в главе 17. То же самое в значи-

Рис. 13.2. Примеры переменных, которые могут оказывать влияние на ответы человека, получаемые на одно утверждение из лично­стного опросника.

тельной степени приложимо и к тесту способностей. На успеш­ность здесь могут оказывать влияние не только способности, но и тревога, удача при угадывании правильного ответа, непонимание того, что ожидается, социальное давление (намеренное частич­ное выполнение теста, чтобы не выделяться из группы), осознава­емая важность получения высокой оценки и т.д. Мы могли бы сде­лать такое же заключение по поводу оценок поведения (когда осо­бенности личности ранжирующего и его чувствительности будут также влиять на выставляемые ранги). Таким образом, любой фраг­мент собранных данных при оценке индивидуальных различий, видимо, подвержен влиянию большого числа факторов, как пока­зано на рис. 13.2.

Можно было бы провести эксперименты, чтобы определить меру влияния каждой из этих переменных на индивидуальный от­вет, полученный на каждый вопрос. Если вопрос предназначен для измерения такой черты, как экстраверсия, «хорошим» будет

вопрос, при котором эффекты всех других переменных окажутся малы, аналогично тому как на «хороший» показатель длины влия­ет расстояние, а не температура, давление воздуха или что-либо еще. В предыдущем примере, касавшемся измерения длины стены, реальная длина стены оказывала решающее влияние на показате­ли, получаемые с помощью измерительной ленты. К сожалению, в психологии это не так. Почти невозможно найти вопрос лично­стного теста, для которого диагностируемая черта объясняла бы более чем 20—30% вариативности индивидуальных ответов на воп­росы. Большая часть вариативности обязана своим происхождени­ем другим факторам.

Проблема действительно серьезна. Кажется, что сложно или невозможно придумать вопросы, которые измеряли бы черту в чистом виде, поскольку ответы индивидуумов на каждый вопрос теста подвержены влияниям множества черт, состояний, аттитю-дов, настроений и везения. Можем ли мы надеяться, что личность или способности могут быть оценены с какой-либо степенью точ­ности?

К счастью, существует подход к решению этой проблемы. На­пример, можно привести некоторые другие вопросы, измеряю­щие экстраверсию, каждый из которых зависит от действия раз­личного набора посторонних факторов. В главе 5 показано, что Ай-зенк считает экстравертов социабельными, оптимистичными, разговорчивыми, импульсивными и т.д., — значит, можно сфор­мулировать вопросы, которые измеряли бы и эти переменные тоже. Вопрос типа «Ведете ли вы себя тихо во время общественных ме­роприятий?» был бы подвержен влиянию определенного числа посторонних факторов, но лишь некоторые из них оказались бы теми же, что и для первого вопроса. Таким образом, если опрос^ ники конструировались из некоторого количества вопросов, на каждый из которых действует различный набор посторонних фак­торов, влияние последних будет иметь тенденцию к снижению, в то время как влияние черты будет накапливаться. Следовательно, чтобы разработать более точное измерение личностной черты, не­обходимо просто:

• написать несколько вопросов, каждый из которых отражает разные аспекты черты и, следовательно, оказывается под воздействием различных наборов посторонних факторов;

• оценить ответы на эти вопросы;

• сложить эти оценки вместе.

Общий (или средний) балл, полученный по опроснику, не­избежно будет лучшей оценкой черты индивидуума, чем ответ на один-единственный вопрос, поскольку посторонние факторы ус­траняют действие друг друга. Это тот же принцип, о котором го­ворилось в предыдущем разделе. Там я утверждал, что для получе­ния «наилучшей» оценки длины комнаты по результатам трех из­мерений, которые слегка различаются (потому что на каждый действует различный набор посторонних факторов), мы должны просто взять среднее значение этих величин. Когда мы поступаем таким образом, 80%, 90% (и даже более) вариативности в общей оценке теста обусловливается личностной чертой, что намного лучше, чем 20 или 30%, которые можно было бы получить с по­мощью одного отдельно взятого, даже самого хорошего, вопроса. Этот простой принцип составляет основу «теории надежности», которая будет обсуждаться в следующем разделе. Прежде чем за­кончить этот раздел, необходимо объяснить, что означает термин «специфическая вариативность», который без предупреждения вкрался в рис. 13.2. Остальные стрелки на этом рисунке дают осно­вание предполагать, что ответ индивидуума на этот вопрос может быть полностью охарактеризован в терминах пяти основных пара­метров (плюс некоторая ошибка измерения, которую мы можем опустить). Однако это не обязательно так. Вполне возможно, что некто, не являющийся экстравертом и не получающий удоволь­ствия от выпивки, и чей ответ не подвержен сильному влиянию любого другого постороннего фактора, может тем не менее про­сто извлекать удовольствие из «пьяных» вечеринок. Другими сло­вами, может получиться так, что некоторые индивидуумы отве­тят на этот вопрос полным согласием, даже несмотря на то что такой вариант ответа невозможно предугадать исходя из знания их аттитюдов, личностных черт и прочих обстоятельств из числа «мешающих факторов». Необходимо принимать это в расчет, что и делается с помощью понятия, называемого специфической вари­ативностью.

Надежность умственных тестов

В предыдущем разделе я показал, что отдельно взятый вопрос теста — плохое средство измерения черты и что значительно луч­шую оценку ее выраженности можно получить, если мы сложим

 

оценки, полученные по некоторому количеству вопросов, изме­ряющих различные аспекты черты. Представим себе, что для изме­рения определенной черты разработано около 20 вопросов и они предъявляются приблизительно 200 испытуемым. Пока мы допус­каем, что все вопросы измеряют одну и ту же черту, а о том, как проверить это допущение и устранить вопросы, которые измеряют ее плохо, мы будем говорить в главе 18. Специализированные ком­пьютерные программы (такие, как операция оценки «надежнос­ти» в SPSS) могут быть использованы, чтобы вычислить по этим данным статистическую характеристику, которую различные ав­торы упоминают как «надежность» теста, «альфа», «коэффициент альфа», «KR-20», «альфа Кронбаха» или «внутренняя согласован­ность». Деталей того, как вычисляется эта статистика, мы здесь касаться не будем, но их можно найти в большинстве учебников по психометрике. Как вы можете ожидать исходя из прочитанного в предыдущем разделе, на коэффициент альфа влияют два фактора:

• средняя величина корреляции между вопросами теста. По­скольку мы допустили в предыдущем разделе, что различ­ные задания теста подвержены действию разных посторон­них факторов, единственная причина, по которой ответы индивидуумов на любую пару заданий должны коррелиро­вать между собой, состоит в том, что оба вопроса измеряют одну и ту же скрытую черту. Поэтому, если все вопросы тес­та измеряют одну и ту же черту, корреляции между ними будут высокими и положительными (после обработки);

• количество вопросов в шкале. Снова я указываю на то, что общая цель построения шкалы из нескольких вопросов со­стоит в том, чтобы попытаться устранить действие посто­ронних факторов. Видимо, легко понять: чем больше вопро­сов в шкале, тем более вероятно, что все эти посторонние факторы будут устранены. В этом случае может оказаться по­лезной формула Спирмена — Брауна (имеющаяся в любом стандартном руководстве по психометрике). Она позволяет предсказать, как будет увеличиваться или уменьшаться на­дежность шкалы, если число вопросов в шкале меняется.

Следует помнить, что надежность теста — это просто статис­тическая характеристика, которая может быть вычислена на осно­ве любого набора данных (при условии, что выборка составляет не менее 200 испытуемых). Помните также, что ее максимально воз-

20-989

Таблица 13.2 Корреляции между пятью гипотетическими вопросами теста

  Вопрос 1 Вопрос 2 Вопрос 3 Вопрос 4 Вопрос 5
Вопрос 1 1,0        
Вопрос 2 -0,02 1,0      
Вопрос 3 0,10 0,28 1,0    
Вопрос 4 0,15 0,31 . 0,24 1,0  
Вопрос 5 0,12 0,25 0,27 0,36 1,0

можное значение составляет 1,0 (ее минимальное значение может при определенных обстоятельствах быть меньше 0). Это в высшей степени важно. Для больших тестов квадратный корень из коэффи­циента альфа представляет очень близкую апроксимацию к корре­ляции между оценками индивидуумов по определенному интел­лектуальному тесту и подлинной оценкой их черты (Nunnally, 1978). Так, коэффициент альфа, равный 0,7, предполагает корреляцию

д/OJ или 0,84, между оценками, полученными по тесту, и под­линными оценками испытуемых, в то время как величина коэф­фициента альфа, равная 0,9, подразумевает, что корреляция дос­тигает такого высокого значения, как 0,95. Поскольку основная цель использования психологических тестов — попытаться дос­тичь максимально возможного приближения к подлинной оценке черты личности, из этого следует, что тесты должны иметь высо­кое значение коэффициента альфа.

Широко распространенное эмпирическое правило указывает на то, что тест не должен использоваться, если он имеет коэффи­циент альфа ниже 0,7, а применять его при принятии важных ре­шений по поводу конкретного индивидуума (например, для оценки необходимости коррекционного обучения) можно только в том случае, если величина коэффициента альфа больше 0,9.

Задание для самопроверки 13-1

Тест из пяти вопросов, измеряющий экстраверсию, предъявляли боль­шой выборке испытуемых. Были вычислены корреляции между отве­тами на его вопросы. Они представлены в табл. 13.2. (а) Что показывает корреляция между любой парой ответов на вопро­сы теста?

(б) Какой вопрос оказывается наименее эффективным в измерении экстраверсии?

(в) Представьте себе, что вы подсчитали величину коэффициента альфа по корреляциям, показанным в табл. 13.2, и нашли, что эта величина ниже 0,7. Что вы можете предпринять?

Вышеизложенное кажется достаточно простым, но мы еще ничего не сказали о содержании заданий теста. Проблема заключа­ется в том, что довольно легко повысить среднюю корреляцию между заданиями теста, задавая несколько раз, по существу, один и тот же вопрос, слегка перефразируя его в каждом случае. Благо­даря этому все посторонние факторы, которые влияют на первый вопрос, будут влиять и на второй. Поскольку оба вопроса имеют отношение к одному и тому же поведению, они будут также раз­делять большую часть своей специфической вариативности. Поэто­му можно ожидать, что корреляция между двумя утверждениями будет близка к 1,0. Примерами двух таких утверждений могут быть: «Я получаю удовольствие от вечеринок» и «Я получаю удоволь­ствие от «тусовок»». Поскольку эти два задания, по сути, задают один и тот же вопрос, трудно представить себе, что многие люди могли бы полностью согласиться с одним и столь же решительно не согласиться с другим. Ответы на эти два вопроса обязаны иметь высокую положительную корреляцию. При условии, что корреля­ции между заданиями теста обычно невелики (в лучшем случае порядка 0,2-0,3), корреляция 0,9, полученная в результате сопос­тавления двух фактически идентичных утверждений, будучи вклю­чена в таблицу, существенно увеличит среднюю корреляцию. В при­мере, приведенном в табл. 13.2, изменение корреляций между воп­росом 1 и вопросом 2 с -0,02 до 0,9 увеличит среднюю корреляцию с 0,206 до 0,298. В результате этого произойдет значительное увели­чение коэффициента альфа. Однако должно быть ясно, что мы нарушили два главных условия: каждый вопрос будет подвержен влиянию различного набора посторонних факторов и каждый бу­дет иметь свою собственную «уникальную» вариативность, кото­рая не разделяется другими вопросами.

Крайне важно убедиться, что задания в каждой шкале хорошо подобраны. В некоторых случаях сделать это несложно. Например, в случае словарного теста просто необходимо подбирать задания из словаря (может быть, исключая те слова, которые встречаются ниже определенного порога частотности, или слова грубые, арха­ичные, специальные, т.е. профессиональные, термины). Когда это

сделано, единственное, что будет влиять на корреляцию между ответами на пару заданий, — степень, с которой каждое из них измеряет скрытую черту (грамотность), — принцип, иногда опре­деляемый как «локальная независимость». Не существует магичес­кой формулы для автоматической реализации этого принципа при конструировании тестов. От человека, пишущего задания, зависит гарантия того, что единственной причиной, объясняющей корре­ляцию ответов на любую пару заданий, является та скрытая черта личности или способностей, которую они оба должны измерять. К сожалению, некоторые подходы к конструированию тестов, на­пример, те, в защиту которых выступают Коста и МакКрей (Costa, McCrae, 1992a), в конечном счете обязательно приведут к появле­нию большого количества искусственно завышенных корреляций, что даст, в свою очередь, завышенную оценку коэффициента аль­фа. Купер (Cooper, в печати) приводит некоторые рассуждения по поводу того, как значимость этой проблемы может быть оценена в системе существующих диагностических шкал.

Важно также обеспечить, чтобы выборка испытуемых, чьи те­стовые оценки используются для вычисления коэффициента аль­фа, была репрезентативна группе, в которой будет применяться данный тест. Бессмысленно, установив его величину в размере 0,9 на выборке студентов университета, затем считать, что этот тест будет годиться для использования на общей популяции, посколь­ку студенты университета — это не случайная выборка: они моло­ды, академически одаренны, принадлежат к среднему классу, гра­мотны и умеют вычислять. Еще раз подчеркнем, что не существует количественного способа определить, будет ли тест, имеющий высокое значение коэффициента альфа на одной выборке, так же работать на другой, — это дело здравого смысла. Я бы с большой осторожностью относился к допущению, что личностный тест, который был разработан с участием американских студентов кол­леджа, будет работать на общей популяции Великобритании (и соответственно, наоборот), но не все разделяют эти опасения. Са­мое безопасное — вычислять коэффициент альфа во всех случаях использования теста, хотя в качестве предварительного условия обязательным будет тестирование большей выборки испытуемых (Нанелли рекомендует минимум 200 человек).

При использовании должным образом коэффициент альфа очень полезен. Любой тест можно рассматривать как комплекс заданий, выбранных из большого набора вопросов, которые потенциально могли быть заданы. Например, тест на правописание — это выбор-

ка слов из словаря. Тест, измеряющий тревогу, — это набор всех (многих!) вопросов, которые можно было бы перечислить с це­лью измерения множества аспектов тревоги. Тест математических способностей — это выборка из почти бесконечного числа мате­матических заданий, которые только можно было бы написать.

Ранее я использовал понятие «подлинная оценка», но не оп­ределил его значение. Подлинное значение черты индивидуума — это оценка, которую он получил бы, если бы ему предъявили каж­дое возможное задание из полного набора. Если бы вы оценили чью-либо способность правильно писать каждое слово из словаря, -то узнали бы точно, каковы способности этого человека к право­писанию, поскольку отсутствовала бы ошибка измерения, обус­ловленная случайным выбором заданий. Однако в тесте мы берем лишь небольшую выборку заданий из возможного набора и объе­диняем их вместе. Если (и только если) задания теста формируют репрезентативную выборку по отношению к полному набору зада­ний, квадратный корень из коэффициента альфа довольно точно оценивает корреляцию между оценкой, полученной испытуемы­ми при выполнении теста, и их подлинной оценкой (т.е. оценкой, которую они могли бы получить, если бы им были предъявлены все задания до полного исчерпания набора).

Чем выше величина коэффициента альфа, тем меньше будет ошибка при измерении черты, и, зная надежность теста и стандар­тные отклонения тестовых оценок, можно извлечь статистическую характеристику, которая называется «стандартная ошибка измере­ния» («standard-error of measurement» (SEM)). Она показывает, на­сколько ошибка измерения может быть связана с каждым измере­нием. Можно установить, что если оценка человека по тесту равна 35, то с 99%-ной вероятностью можно полагать, что подлинная оценка находится где-то между 30 и 38*.

Формула для вычисления стандартной ошибки такова:

где SD — стандартное отклонение тестовых оценок. Таким обра­зом, тест со стандартным отклонением 1,0 и надежностью 0,7 бу-

* Если вам захочется сделать это на практике, я вам очень советую перед этим проконсультироваться с книгой Нанелли (Nunnally, 1978, р. 241). Процедуры, опи­санные в большинстве руководств по использованию тестов (даже таких широко используемых, как WISC-III) и во многих учебниках по психометрике, неправильны.

дет иметь стандартную ошибку 5,4. Если бы его надежность была равна 0,9, то стандартная ошибка измерения упала бы до 3,1. Та­ким образом, знание надежности теста позволяет делать некото­рые интересные заключения, касающиеся величины ошибки, ко­торая, вероятно, имеется в любом измерении, при условии, ко­нечно, что задания данного теста можно считать репрезентативными по отношению к полному набору заданий.

Задание для самопроверки 13.2

(а) Что такое KR-20 и альфа Кронбаха?

(б) Почему при разработке опросника нецелесообразно перефрази­ровать одно и то же задание несколько раз?

(в) О чем говорит стандартная ошибка измерения?

(г) Представьте себе, что мы имеем два теста, которые ставят своей целью измерение тревоги. Тест 1 имеет надежность 0,81, а тест 2 имеет надежность 0,56. Какой будет корреляция между каждым из этих тестов и подлинной оцеукой? Какой будет самая большая корре­ляция, которую вы, вероятно, получите, если будете коррелировать оценки индивидуумов, полученные по тесту 1, с их же оценками, по­лученными по тесту 2?

Другие подходы

к измерению надежности

До появления компьютеров вычислять коэффициент альфа вруч­ную было утомительно, поэтому использовалась апроксимация. Вместо сложения всех заданий теста для получения общей оценки вычислялись две оценки: одна основывалась на всех нечетных за­даниях теста, а другая — на всех четных. Полученные две оценки затем коррелировали между собой, и после применения формулы Спирмена—Брауна (поскольку набор четных или нечетных зада­ний — только половина объема полного теста) это давало надеж­ность, полученную методом расцепления. В настоящее время, по-видимому, нет весомых оснований для ее использования.

Ретестовая надежность, иногда известная как временная ста­бильность, имеет совершенно другой смысл. Как следует из назва­ния, она проверяет, в какой степени оценки черты остаются бо­лее или менее постоянными в течение времени. Большинство тес­тов разработано для измерения таких черт, как экстраверсия,

способности к вычислениям или нейротицизм, а в определении черты подчеркивается, что это относительно устойчивая диспози­ция. Последнее предполагает, что индивидуумы должны иметь по­хожие оценки, 'когда они тестируются в двух ситуациях (напри­мер, с интервалом в несколько недель) при условии, что:

• с ними не случилось ничего значительного в интервале меж­ду двумя тестированиями (например, не было эмоциональ­ного кризиса, изменений, обусловленных развитием, или значительного образовательного опыта, который мог бы по­влиять на черту);

• тест хорошо измеряет черту.

Если при первом тестировании тест показывает, что ребенок гениален, а через месяц его интеллект оказывается на среднем уровне, то либо концепция интеллекта характеризует в большей степени состояние, а не черту, либо тест несостоятелен.

Оценка ретестовой надежности обычно включает двукратное тестирование одной и той же группы людей с интервалом по край­ней мере в один месяц (чтобы минимизировать вероятность того, что испытуемые запомнят свои предыдущие ответы), но все же не слишком большим (иначе изменения, обусловленные развитием, обучением или другими жизненными событиями, могут изменить позиции индивидов по данной черте). Ретестовая надежность -это просто корреляция между двумя наборами оценок. Если она высока (означая тем самым, что индивидуумы имеют сходные уров­ни по черте g обоих случаях), то можно утверждать, что черта стабильна и тест, вероятно, является хорошим средством измере­ния черты.

Проблема, разумеется, заключается в том, что ретестовая на­дежность основывается на общей оценке, она ничего не говорит о том, как люди выполняют отдельные задания. В то время как коэф­фициент альфа показывает, измеряет ли набор заданий некото­рую конкретную скрытую черту, прекрасную ретестовую надеж­ность может иметь набор заданий, которые не имеют ничего общего между собой. Например, если вы попросили кого-то суммировать номер своего дома, размер обуви и год рождения в двух разных ситуациях, полученная статистическая характеристика будет об­наруживать впечатляющую ретестовую надежность, хотя эти три пункта не имеют между собой ничего общего.

Ради полноты картины теперь следует упомянуть надежность параллельных форм. Конструкторы тестов иногда создают из набо-

pa заданий несколько тестов. Чтобы создать две параллельные фор­мы теста, задания предъявляются большой выборке испытуемых и подбираются пары заданий со сходным содержанием и уровнем трудности. Например, обе формы теста могут включать задание решить анаграмму из семи букв, и в обоих случаях ответом будут слова, одинаково часто встречающиеся в языке, и только около 25% выборки будут способны решить каждую из них. Одно задание будет затем включено в форму А теста, а другое — в форму Б. Эти два теста продаются отдельно, и (теоретически) несущественно, какой из них будет использоваться в определенных целях, поскольку обычно предпринимаются специальные усилия, гарантирующие, что эти две версии дают одинаковое распределение оценок (и бла­годаря этому позволяют использовать одни и те же таблицы норм для обеих форм теста). Если оба теста измеряют одну и ту же черту, следует ожидать высокой положительной корреляции между оцен­ками индивидуумов по двум формам теста. Эта корреляция извес­тна как надежность параллельных форм. Однако, поскольку парал­лельные формы имеют относительно немногие тесты, она исполь­зуется редко.

Теория генерализованности (Cronbach et al., 1972) — другой подход к теории надежности. Хорошее объяснение можно найти в работе Кронбаха (Cronbach, 1994). Эта теория, в сущности, требу­ет от исследователей соблюдать высокую точность по отношению к тем заключениям, которые могут быть сделаны на основе набора тестовых оценок. Она пытается идентифицировать все возможные источники ошибок, которые могут возникнуть при оценивании, в значительной степени так же, как это было показано для отдель­ных заданий теста в предыдущем разделе. Она стремится оценить каждый из них независимо и внести поправку в оценку каждого индивидуума с учетом влияний этих посторонних факторов. Пред­ставим себе, что дети выполнили тест на правописание в двух си­туациях; данные, полученные в двух тестированиях, могут быть проанализированы многими способами. Например, можно оценить временную стабильность теста на правописание, определить, на­сколько стабильно дети выполняют буквенный анализ слова, или составить диаграмму, оценивающую рост успехов класса в право­писании. Проблема заключается в том, что определение (и изме­рение) всех этих переменных — очень запутанная и громоздкая процедура, и, поскольку важность переменных будет, вероятно, меняться при переходе от одной выборки к другой (пенсионеры

могут прилагать меньше усилий для выполнения тестов способно­стей, чем студенты, например), это до сих пор не имеет большого практического применения.

Проверка валидности

• -••.' *

Мы видели, что теория надежности может доказать, измеряет или нет набор тестовых заданий некоторую скрытую черту. Однако она не в состоянии пролить какой-либо свет на сущность черты. То обстоятельство, что исследователь думает, будто набор заданий должен измерять определенную черту, не дает гарантии того, что измеряется действительно эта черта. В начале 1960-х гг. много пуб­ликаций было посвящено шкале репрессии—сенситизации (R—S). Эта шкала была предназначена измерять степень, с которой ин­дивидуумы использовали «перцептивную защиту», другими сло­вами, оценивать склонность к менее осознанному восприятию эмо­ционально угрожающих фраз по сравнению с нейтральными фра­зами при предъявлении и тех и других на очень короткое время. Задания образовывали вполне надежную шкалу, поэтому все про­сто признавали, что эта шкала измеряла то, что она должна была измерить. На ее основе было проведено очень большое количество исследований. Затем Джой (Joy, 1963; цит. no: Kline, 1981) устано­вил, что оценки, полученные по этому тесту, обнаруживали кор­реляцию —0,91 с хорошо обоснованным тестом социальной жела­тельности. Максимальная корреляция между двумя тестами огра­ничена величиной их надежности, поэтому корреляция —0,91 в действительности подразумевает, что вся вариативность шкалы репрессии—сензитизации могла объясняться социальной желатель­ностью. Она не измеряла ничего нового вообще.

В этой истории содержится важное положение. Даже если на­бор заданий, по-видимому, образует целостную шкалу, невозможно сказать, что именно она измеряет, просто просмотрев задания. Необходимо эмпирически определить, что именно измеряет шка­ла, с помощью процедуры, известной как валидизация теста.

Говорят, что тест валиден, если он измеряет то, что он должен измерить либо в теоретических понятиях, либо в практическом приложении. Например, тест, который предлагается использовать как средство измерения тревожности в общей популяции Вели­кобритании, должен измерять тревожность, а не социальную

желательность, навыки чтения, социабельность или какую-либо другую не связанную с ней черту. Тест, использующийся для про­фотбора соискателей, которые будут с наибольшей вероятностью успешны в определенной деятельности, должен быть способен вы­явить индивидуума (индивидуумов), который будет работать луч­ше других. Однако, если надежность теста может быть выражена определенным числом (для конкретной выборки испытуемых), валидность теста также зависит и от целей тестирования. Напри­мер, тест, валидный для отбора компьютерных программистов из выборки студентов Великобритании, может оказаться бесполез­ным для отбора администраторов в сфере торговли. Тест, валид­ный для измерения депрессии при использовании его медицинс­кими работниками, скорее всего не будет валиден при общем об­следовании нанимающихся на работу соискателей, поскольку большинство из них будут понимать цель теста и искажать свои ответы.

Из этого следет, что надежность является необходимым усло­вием валидности теста, поскольку низкая надежность подразуме­вает, что тест не измеряет одну конкретную черту. Однако высокая надежность сама по себе не гарантирует валидность теста, посколь­ку, как показано выше, это зависит полностью от того, как, поче­му и на ком используется тест.

Существует четыре главных способа установления валидности теста.

Очевидная валидность

Очевидная валидность просто оценивает, насколько тест внеш­не соответствует тому, для чего он предназначался. Описанное выше ниспровержение шкалы R—S показывает, что даже внима­тельное изучение содержания заданий не дает гарантий того, что тест будет измерять именно предполагавшуюся черту. Несмотря на это, некоторые широко распространенные тесты (особенно в со­циальной психологии) конструируются путем формулирования не­скольких заданий, обеспечения достаточной величины коэффи­циента альфа (что обычно не создает проблем, потому что задания перефразируют одно другое), а также наивного полагания, что шкала измеряет то понятие, для оценки которого она предназна­чалась. Принципиально важно до использования теста обеспечить ему лучшие, чем эти, основания.

Содержательная валидность

Иногда можно сконструировать тест, который должен быть ва­лиден, по определению. Например, представьте себе, что кто-то захотел сконструировать тест на правописание. Поскольку, по оп­ределению, словарь содержит полный набор заданий, любая про­цедура, обеспечивающая репрезентативную выборку слов из сло­варя, должна быть валидным тестом способности к правописа­нию. Именно это и означает валидность по содержанию. Приведем другой пример: психологи, специализирующиеся на отборе кад­ров, в некоторых случаях используют особые подходы, условно обозначаемые как «рабочая корзина», когда соискателям предла­гают выполнить ряд работ, которые относятся к сфере професси­ональной деятельности, а затем тем или иным способом оцени­вается их успешность по этим заданиям. Эти эксперименты не являются психологическими тестами в прямом смысле слова, но можно согласиться с тем, что эта процедура имеет содержатель­ную валидность. Проблема заключается в том, что редко удается достаточно точно определить полный набор потенциальных зада­ний теста. Например, каким образом следовало бы определить задания, которые нужно включить в тест способности к вычисле­ниям? В результате этого данная методика используется не слиш­ком часто.








Дата добавления: 2015-03-03; просмотров: 1109;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.019 сек.