Теория надежности тестов.

Известно [1, 2, 8, 10, 15, 16], что оценки полученные индивидуумами по психо­логическим тестам используются как численные выражения абстрактных психологических понятий. По этой причине важно иметь уверенность в том, что эти оценки по любому психологическому тесту, во-первых, имеют неболь­шую случайную ошибку измерения (что говорит о высокой статис­тической надежности) и, во-вторых, действительно измеряют то, что они ставят целью измерить (т.е. имеют высокую валидность, которая подробнее будет рассмотрена позже).

По определению К. Купера [10], анализ понятий систематической и случайной ошибок измерения приводит к важному аспекту психометрики, известному как теория надеж­ности.

Следует напомнить, что главнейшей характеристикой психологических тестов является то, что каждая шкала теста должна оценивать одну (и только одну!) психологическую характеристику.

Большинство тестов (составленных по типу опросников) обраба­тываются суммированием по ключу ответов на каждое задание и интерпретировать значение набранного балла можно только в том случае, если все задания в шкале измеряют одну и ту же базовую психологическую характеристику. Если все утверждения измеряют одну психологическую характеристику, то чем выше оценки испытуемых, полученные по данному тесту, тем более развита у них эта характеристика.

Однако если задания теста измеряют две и более совершенно разные характеристики, такая интер­претация невозможна. Поэтому очень важно убедиться в том, что все утверждения в определенной шкале оценивают одну (и только одну!) психологическую характеристику. Существуют два основных способа убедиться в этом.

Теория надежности эта теория, в которой изначально предполагается, что все задания теста предназначены для того, чтобы измерять одну и ту же характеристику; кроме того, теория надежности позволяет проверить, так ли это в действительности.

Для того чтобы лучше понять суть систематической и случайной ошибок, рассмотрим аналогию психологических и физических измерений.

Физические измерения. Измерение предметов в повседневной жизни может проводиться с различной точностью, при этом всегда существует некото­рая "ошибка измерения", связанная с определением физических параметров предмета, которая составляет небольшой процент от измеряемого параметра. Как правило, величина этой ошибки зависит от точности используемого измерительного инструмента. В частности, в случае измерения длины (например, стола) могут использоваться - рулетка, сантиметр или линейка, которые имеют свою, заданную ошибку измерения.

Ошибка, связанная с проведением каждого измерения, может рассматриваться как случайная в том смысле, что она будет изменяться случайным образом от одного измерения к другому.

К примеру, если бы измеряли некоторый стол одним и тем же инструментом 100 раз, его длина иногда могла оказаться рав­ной, 155 см, в другой раз несколько меньше – 154. Однако если бы мы усреднили эти 100 измерений, они должны были бы дать более точную оценку его подлинной длины, чем та, которая получилась бы в результа­те одного измерения, поскольку случайные ошибки измерения име­ют тенденцию нивелировать влияния друг друга при усреднении.

Таким образом, ошибки измерения могут быть сведены к минимуму; при этом измерительные инструменты должны быть сконструи­рованы так, чтобы получаемые с их помощью оценки гарантиро­ванно находились под влиянием только одной физической пере­менной - именно той, которую хотят измерить. Например, пока­затели длины, получаемые по шкале измерительной рулетки, не должны зависеть от времени дня, когда осуществляется измерение, от температуры помещения, где происходить измерение, света или фактуры измеряемого объекта или еще чего-либо, за исключением его длины. Это прямой эквивалент принци­па, который заложен при использовании любого теста: измерительные инструменты должны изме­рять только одну (психологическую) характеристику объекта.

На практике обеспечить это далеко не так просто. Допустим, что указанные выше измерительные инструменты, полнос­тью свободны от ошибок измерения - «случайных ошибок», упо­минавшихся выше. Дает ли это основание полагать, что длина стола может быть измерена с полной точностью? К сожа­лению, нет, поскольку ни один из этих инструментов не измеряет только длину. Сантиметр (особенно если он на тканевой основе), будет слегка вытягиваться или сжиматься в зависимости от изменения температуры и влажности, и поэтому в холодный влажный день или в сухой и жаркий он будет давать несколько различающиеся показатели. Точность других измерителей может (хотя и в очень малой степени) также зависеть от иных параметров окружающей среды.

Таким образом, даже если мы примем, что все эти инструмен­ты измеряют длину (и только ее одну), размеры, определяемые каждым из них, будут в действительности подвержены влиянию нескольких различных переменных. Назовем их источниками "систематической ошибки". В отличие от обсуждавшихся выше слу­чайных ошибок, источники систематических ошибок не обнару­живают тенденцию к устранению, когда проводятся повторные измерения при одних и тех же физических условиях. Если мы 100 раз измеряем длину стола с помощью сантиметра в жаркий влажный день, то показатели будут всегда слегка пре­увеличены, поскольку измерительная лента будет коробиться.

Если перечисленные три способа измерения длины стола (т.е. рулетка, сантиметр или линейка) находятся под влиянием различных физических перемен­ных окружающей среды, то каким образом следует определять "подлинную" длину, руководствуясь этими тремя, слегка различающимися показате­лями? Решение, которое напрашивается само собой, состоит в том, чтобы усреднить эти три показателя, надеясь на интуитив­ную очевидность того, что среднее трех измерений окажется бли­же к "подлинному" значению, нежели каждое из измерений, взя­тое поодиночке.

Теперь можно подвести итог сказанному, сформулировав несколько основопо­лагающих принципов [10]:

• "Хорошие" измерительные инструменты - это такие, на которые мало влияет случайная ошибка.

• "Хорошие" измерительные инструменты не подвержены вли­яниям источников систематической ошибки.

Проведение многократных измерений при разных физичес­ких условиях и усреднение результатов уменьшают вкладслу­чайных ошибок.

Усреднение измерений, полученных с помощью разных ин­струментов, будет вести к уменьшению вклада системати­ческой ошибки.

Измерения в психологии.В психологии ответ, который испытуемый дает на задание тес­та, представляет собой аналог измерения длины одним из мето­дов, описанных выше, - с одной лишь существенной разницей, имеющей практическое значение, особенно в случае личностных измерений.

Допустим, что в личностном опроснике задан вопрос: "Получаете ли вы удовольствие от шумных вечеринок?", на который можно ответить, отмечая по пятибалльной шкале ранги от – "совершенно согласен" до "совершенно не согла­сен". Попытаемся назвать ряд очевидных факторов, кото­рые могут повлиять на то, какие ответы будут даваться. Среди таких факторов можно отметить следующие:

- уровень экстраверсии (личностная черта);

- число вечеринок, на которых недавно побывал испытуемый (фактор усталости);

- возраст испытуемого;

- его религиозные убеждения;

- контекст, в котором задавался вопрос (диагностическая ситуация);

- способ, который испытуемый использует при работе с пя­тибалльной шкалой: некоторые индивидуумы используют оценки 1 и 5 довольно свободно, в то время как другие ни­когда не обращаются к полюсам шкалы;

- склонность соглашаться: установлено, что люди склонны соглашаться с утверждениями;

- настроение испытуемого;

- случайная ошибка: если задать ему тот же самый вопрос двумя минутами позже, можете получить несколько отличающийся ответ.

Этот список, вероятно, может содержать и другие важные перемен­ные, поскольку множество посторонних факторов определяет, каким обра­зом индивидуум будет отвечать на вопрос в личностном тесте.

Такое же заключение относится и к оценкам поведения испытуемого или к оценкам его способностей. Следовательно, любой фраг­мент собранных данных при оценке индивидуальных различий, подвержен влиянию большого числа разнообразных факторов.

В экспериментах, можно определить меру влияния каждого из этих факторов на индивидуальный от­вет, полученный на каждый вопрос теста. Например, если вопрос предназначен для измерения такой черты, как экстраверсия, "хорошим" будет вопрос, при котором эффекты всех других переменных окажутся малы, аналогично тому, как на "хороший" показатель длины влия­ет расстояние, а не температура, давление воздуха или что-либо еще. В предыдущем примере, касавшемся измерения длины стола, реальная длина стола оказывала решающее влияние на показате­ли, получаемые с помощью сантиметра.

К сожалению, в психологии это не так. Практически невозможно найти вопрос лично­стного теста, для которого диагностируемая черта объясняла бы более чем 20—30% вариативности индивидуальных ответов на воп­росы. Большая часть вариативности обязана своим происхождени­ем другим факторам.

Проблема действительно сложная. Кажется, что невозможно придумать вопросы, которые измеряли бы черту в чистом виде, поскольку ответы индивидуумов на каждый вопрос теста подвержены влияниям множества черт, состояний, аттитюдов, настроений и везения. Можно ли надеяться, что личность или способности могут быть оценены с какой-либо степенью точ­ности?

Тем не менее, существует подход к решению этой проблемы. На­пример, можно привести некоторые другие вопросы, измеряю­щие экстраверсию, каждый из которых зависит от действия раз­личного набора посторонних факторов. Известно [10], что Айзенк считает экстравертов социабельными, оптимистичными, разговорчивыми, импульсивными и т.д., - значит, можно сфор­мулировать вопросы, которые измеряли бы и эти переменные тоже. Вопрос типа "Ведете ли вы себя тихо во время общественных ме­роприятий?" был бы подвержен влиянию определенного числа посторонних факторов, но лишь некоторые из них оказались бы теми же, что и для первого вопроса.

Таким образом, если опрос­ники конструировались из некоторого количества вопросов, на каждый из которых действует различный набор посторонних фак­торов, влияние последних будет иметь тенденцию к снижению, в то время как влияние черты будет накапливаться. Следовательно, чтобы разработать более точное измерение личностной черты, не­обходимо:

- написать несколько вопросов, каждый из которых отражает разные аспекты черты и, следовательно, оказывается под воздействием различных наборов посторонних факторов;

- оценить ответы на эти вопросы;

- сложить эти оценки вместе.

Средний балл, полученный по опроснику, не­избежно будет лучшей оценкой черты индивидуума, чем ответ на один-единственный вопрос, поскольку посторонние факторы ус­траняют действие друг друга. Это тот же принцип, о котором го­ворилось в примере с измерением длины стола. Когда мы используем этот принцип, 80%, 90% (и более) вариативности в общей оценке теста будет обусловливаться личностной чертой, что намного лучше, чем 20 или 30%, которые можно было бы получить с по­мощью одного отдельно взятого, даже самого хорошего, вопроса. Этот простой принцип составляет основу теории надежности, которую мы рассмотрим ниже.

Прежде чем перейти к ней, необходимо ввести еще один термин – "специфическая вариативность".

Вернемся к примеру с вопросом об экстраверсии. Вполне возможно, что некто, не являющийся экстравертом и не получающий удоволь­ствия шумных компаний, и чей ответ не подвержен сильному влиянию любого другого постороннего фактора, может тем не менее про­сто извлекать удовольствие из "шумных" вечеринок.

Другими сло­вами, может получиться так, что некоторые индивидуумы отве­тят на этот вопрос полным согласием, даже, несмотря на то, что такой вариант ответа невозможно предугадать исходя из знания их установок, личностных черт и прочих обстоятельств из числа "побочных факторов". Этот факт и учитывается с помощью понятия, называемого "специфической вари­ативностью".

Выше было показано, что отдельно взятый вопрос теста - плохое средство измерения черты и что значительно луч­шую оценку ее выраженности можно получить, если мы сложим оценки, полученные по некоторому количеству вопросов, изме­ряющих различные аспекты черты.

Представим себе, что для изме­рения определенной черты разработано около к вопросов, и они предъявляются приблизительно n испытуемым. Пока мы только допус­каем, что все вопросы измеряют одну и ту же черту (проблемы о том, как проверить это допущение и устранить вопросы, которые плохо ее измеряют, будут рассмотрены позже). Специализированные ком­пьютерные программы (такие, как операция оценки "надежнос­ти" в SPSS, "STADIA") могут быть использованы, чтобы вычислить по этим данным статистическую характеристику, которую различные ав­торы называют как: "надежность" теста, "альфа", "коэффициент альфа", "KR-20", "альфа Кронбаха" или "внутренняя согласован­ность". Деталей того, как вычисляется эта статистика, мы касаться не будем, но их можно найти в большинстве учебников по статистике.

Как можно ожидать исходя из выше изложенного, на коэффициент альфа влияют два фактора:

- средняя величина корреляции между вопросами теста. По­скольку ранее мы допустили, что различ­ные задания теста подвержены действию разных посторон­них факторов, единственная причина, по которой ответы индивидуумов на любую пару заданий должны коррелиро­вать между собой, состоит в том, что оба вопроса измеряют одну и ту же скрытую черту. Поэтому, если все вопросы тес­та измеряют одну и ту же черту, корреляции между ними будут высокими и положительными;

- количество вопросов в шкале. Еще раз подчеркнем, что общая цель построения шкалы из нескольких вопросов со­стоит в том, чтобы попытаться устранить действие посто­ронних факторов.

Легко понять: чем больше вопро­сов в шкале, тем более вероятно, что все эти посторонние факторы будут устранены. В этом случае может оказаться по­лезной формула Спирмена - Брауна (рассмотренная выше). Она позволяет предсказать, как будет увеличиваться или уменьшаться на­дежность шкалы, если число вопросов в шкале меняется.

Итак, надежность теста - это статис­тическая характеристика, которая может быть вычислена на осно­ве любого набора данных (при условии, что выборка составляет не менее 200 испытуемых). Напомним также, что максимально возможное значение надежности составляет 1,0 (минимальное значение, при определенных обстоятельствах, может быть меньше 0).

Для больших тестов квадратный корень из коэффи­циента альфа представляет очень близкую аппроксимацию к корре­ляции между оценками индивидуумов по определенному тесту и подлинной оценкой их черты. Например, коэффициент альфа равный 0,7, предполагает корреляцию равную 0,84 ( =0,84), между оценками, полученными по тесту, и под­линными оценками испытуемых, в то время как величина коэф­фициента альфа, равная 0,9, подразумевает, что корреляция дос­тигает такого высокого значения, как 0,95.

Поскольку основная цель использования психологических тестов - попытаться дос­тичь максимально возможного приближения к подлинной оценке черты личности, из этого следует, что тесты должны иметь высо­кое значение коэффициента альфа.

Широко распространенное эмпирическое правило указывает на то, что тест не должен использоваться, если он имеет коэффи­циент альфа ниже 0,7, а применять его при принятии важных ре­шений по поводу конкретного индивидуума (например, для оценки необходимости коррекционного обучения) можно только в том случае, если величина коэффициента альфа больше 0,9.

Теперь рассмотрим вопрос о содержании заданий теста. Проблема заключа­ется в том, что довольно легко повысить среднюю корреляцию между заданиями теста, задавая несколько раз, по существу, один и тот же вопрос, слегка перефразируя его в каждом случае. Благо­даря этому все посторонние факторы, которые влияют на первый вопрос, будут влиять и на второй. Поскольку оба вопроса имеют отношение к одному и тому же поведению, они будут также раз­делять большую часть своей специфической вариативности. Поэто­му можно ожидать, что корреляция между двумя такими утверждениями будет близка к 1,0. Примерами двух таких утверждений могут быть:

"Мне нравятся шумные компании" и "Мне нравятся шумные вечеринки". Поскольку эти два задания, по сути, задают один и тот же вопрос, трудно представить себе, что многие люди могли бы полностью согласиться с одним и столь же решительно не согласиться с другим. Ответы на эти два вопроса обязаны иметь высокую положительную корреляцию. При условии, что корреля­ции между заданиями теста обычно невелики (в лучшем случае порядка 0,2-0,4), корреляция 0,9, полученная в результате сопос­тавления двух фактически идентичных утверждений, существенно увеличит среднюю корреляцию по тесту. В результате этого произойдет значительное увели­чение коэффициента альфа.

Однако должно быть ясно, что в этом случае нарушаются два главных условия составления теста: каждый вопрос должен быть подвержен влиянию различного набора посторонних факторов, и каждый должен иметь свою собственную "уникальную" вариативность, кото­рая не разделяется другими вопросами. Поэтому, крайне важно убедиться, что задания в каждой шкале хорошо подобраны. В некоторых случаях сделать это несложно.

Например, в случае разработки словарного теста просто необходимо подбирать задания из словаря (исключая те слова, которые встречаются ниже определенного порога частотности, или слова арха­ичные, специальные, т.е. профессиональные, термины). Когда это сделано, единственное, что будет влиять на корреляцию между ответами на пару заданий, - степень, с которой каждое из них измеряет скрытую черту (грамотность).

Не существует магичес­кой формулы для автоматической реализации этого принципа при конструировании тестов. Только от разработчика теста, зависит гарантия того, что единственной причиной, объясняющей корре­ляцию ответов на любую пару заданий, является та скрытая черта личности или способностей, которую они оба должны измерять. К сожалению, некоторые подходы к конструированию тестов, часто ведут к появле­нию большого количества искусственно завышенных корреляций, что дает, в свою очередь, завышенную оценку коэффициента аль­фа.

Важно также обеспечить, чтобы выборка испытуемых, чьи те­стовые оценки используются для вычисления коэффициента аль­фа, была репрезентативна группе, в которой будет применяться данный тест. Бессмысленно, например, установив величину коэффициента аль­фа в размере 0,9 на выборке студентов университета, затем считать, что этот тест будет годиться для использования на общей популяции, посколь­ку студенты университета - это не случайная выборка. Еще раз подчеркнем, что не существует количественного способа определить, будет ли тест, имеющий высокое значение коэффициента альфа на одной выборке, так же работать на другой, - это дело здравого смысла. Са­мое безопасное - вычислять коэффициент альфа во всех случаях использования теста, хотя в качестве предварительного условия обязательным будет тестирование большей выборки испытуемых (рекомендуется выборка - минимум 200 человек). При использовании должным образом коэффициент альфа может быть очень полезен.

Выше мы использовали понятие "подлинная оценка", но не оп­ределили его значение. Рассмотрим его несколько подробнее.

Любой тест можно рассматривать как комплекс заданий, выбранных из большого набора вопросов, которые потенциально могли быть заданы. Например, тест на правописание - это выборка большого количества слов из словаря. Тест, измеряющий тревогу, - это набор всех (многих!) вопросов, которые можно было бы перечислить с це­лью измерения множества аспектов тревоги. Тест математических способностей - это выборка из почти бесконечного числа мате­матических заданий, которые только можно было бы написать.

Итак, подлинное значение черты индивидуума - это оценка, которую он получил бы, если бы ему предъявили каж­дое возможное задание из полного набора.

Поясним это на примере. Если было бы необходимо оценить чью-либо способность правильно писать каждое слово из словаря, то можно было бы узнать точно, каковы способности этого человека к право­писанию, поскольку отсутствовала бы ошибка измерения, обус­ловленная случайным выбором заданий. Однако в реальном тесте используется лишь небольшая выборка заданий из всего возможного набора.

Если задания теста формируют репрезентативную выборку по отношению к полному набору зада­ний, то квадратный корень из коэффициента альфа довольно точно оценивает корреляцию между оценкой, полученной испытуемы­ми при выполнении теста, и их подлинной оценкой (т.е. оценкой, которую они могли бы получить, если бы им были предъявлены все задания из полного набора).

Чем выше величина коэффициента альфа, тем меньше будет ошибка при измерении черты; зная надежность теста и стандар­тные отклонения тестовых оценок, можно найти статистическую характеристику, которая называется "стандартная ошибка измере­ния", которая показывает насколько ошибка измерения может быть связана с каждым измерением (формула для вычисления стандартной ошибки приведена ниже ; где σ –стандартное отклонение тестовых оценок; α – коэффициент надежности теста).

Та­ким образом, знание надежности теста позволяет делать некото­рые заключения, касающиеся величины ошибки, ко­торая, вероятно, имеется в любом измерении, при условии, ко­нечно, что задания данного теста можно считать репрезентативными по отношению к полному набору заданий.








Дата добавления: 2016-04-02; просмотров: 928;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.015 сек.