Теория надежности тестов.
Известно [1, 2, 8, 10, 15, 16], что оценки полученные индивидуумами по психологическим тестам используются как численные выражения абстрактных психологических понятий. По этой причине важно иметь уверенность в том, что эти оценки по любому психологическому тесту, во-первых, имеют небольшую случайную ошибку измерения (что говорит о высокой статистической надежности) и, во-вторых, действительно измеряют то, что они ставят целью измерить (т.е. имеют высокую валидность, которая подробнее будет рассмотрена позже).
По определению К. Купера [10], анализ понятий систематической и случайной ошибок измерения приводит к важному аспекту психометрики, известному как теория надежности.
Следует напомнить, что главнейшей характеристикой психологических тестов является то, что каждая шкала теста должна оценивать одну (и только одну!) психологическую характеристику.
Большинство тестов (составленных по типу опросников) обрабатываются суммированием по ключу ответов на каждое задание и интерпретировать значение набранного балла можно только в том случае, если все задания в шкале измеряют одну и ту же базовую психологическую характеристику. Если все утверждения измеряют одну психологическую характеристику, то чем выше оценки испытуемых, полученные по данному тесту, тем более развита у них эта характеристика.
Однако если задания теста измеряют две и более совершенно разные характеристики, такая интерпретация невозможна. Поэтому очень важно убедиться в том, что все утверждения в определенной шкале оценивают одну (и только одну!) психологическую характеристику. Существуют два основных способа убедиться в этом.
Теория надежности эта теория, в которой изначально предполагается, что все задания теста предназначены для того, чтобы измерять одну и ту же характеристику; кроме того, теория надежности позволяет проверить, так ли это в действительности.
Для того чтобы лучше понять суть систематической и случайной ошибок, рассмотрим аналогию психологических и физических измерений.
Физические измерения. Измерение предметов в повседневной жизни может проводиться с различной точностью, при этом всегда существует некоторая "ошибка измерения", связанная с определением физических параметров предмета, которая составляет небольшой процент от измеряемого параметра. Как правило, величина этой ошибки зависит от точности используемого измерительного инструмента. В частности, в случае измерения длины (например, стола) могут использоваться - рулетка, сантиметр или линейка, которые имеют свою, заданную ошибку измерения.
Ошибка, связанная с проведением каждого измерения, может рассматриваться как случайная в том смысле, что она будет изменяться случайным образом от одного измерения к другому.
К примеру, если бы измеряли некоторый стол одним и тем же инструментом 100 раз, его длина иногда могла оказаться равной, 155 см, в другой раз несколько меньше – 154. Однако если бы мы усреднили эти 100 измерений, они должны были бы дать более точную оценку его подлинной длины, чем та, которая получилась бы в результате одного измерения, поскольку случайные ошибки измерения имеют тенденцию нивелировать влияния друг друга при усреднении.
Таким образом, ошибки измерения могут быть сведены к минимуму; при этом измерительные инструменты должны быть сконструированы так, чтобы получаемые с их помощью оценки гарантированно находились под влиянием только одной физической переменной - именно той, которую хотят измерить. Например, показатели длины, получаемые по шкале измерительной рулетки, не должны зависеть от времени дня, когда осуществляется измерение, от температуры помещения, где происходить измерение, света или фактуры измеряемого объекта или еще чего-либо, за исключением его длины. Это прямой эквивалент принципа, который заложен при использовании любого теста: измерительные инструменты должны измерять только одну (психологическую) характеристику объекта.
На практике обеспечить это далеко не так просто. Допустим, что указанные выше измерительные инструменты, полностью свободны от ошибок измерения - «случайных ошибок», упоминавшихся выше. Дает ли это основание полагать, что длина стола может быть измерена с полной точностью? К сожалению, нет, поскольку ни один из этих инструментов не измеряет только длину. Сантиметр (особенно если он на тканевой основе), будет слегка вытягиваться или сжиматься в зависимости от изменения температуры и влажности, и поэтому в холодный влажный день или в сухой и жаркий он будет давать несколько различающиеся показатели. Точность других измерителей может (хотя и в очень малой степени) также зависеть от иных параметров окружающей среды.
Таким образом, даже если мы примем, что все эти инструменты измеряют длину (и только ее одну), размеры, определяемые каждым из них, будут в действительности подвержены влиянию нескольких различных переменных. Назовем их источниками "систематической ошибки". В отличие от обсуждавшихся выше случайных ошибок, источники систематических ошибок не обнаруживают тенденцию к устранению, когда проводятся повторные измерения при одних и тех же физических условиях. Если мы 100 раз измеряем длину стола с помощью сантиметра в жаркий влажный день, то показатели будут всегда слегка преувеличены, поскольку измерительная лента будет коробиться.
Если перечисленные три способа измерения длины стола (т.е. рулетка, сантиметр или линейка) находятся под влиянием различных физических переменных окружающей среды, то каким образом следует определять "подлинную" длину, руководствуясь этими тремя, слегка различающимися показателями? Решение, которое напрашивается само собой, состоит в том, чтобы усреднить эти три показателя, надеясь на интуитивную очевидность того, что среднее трех измерений окажется ближе к "подлинному" значению, нежели каждое из измерений, взятое поодиночке.
Теперь можно подвести итог сказанному, сформулировав несколько основополагающих принципов [10]:
• "Хорошие" измерительные инструменты - это такие, на которые мало влияет случайная ошибка.
• "Хорошие" измерительные инструменты не подвержены влияниям источников систематической ошибки.
• Проведение многократных измерений при разных физических условиях и усреднение результатов уменьшают вкладслучайных ошибок.
• Усреднение измерений, полученных с помощью разных инструментов, будет вести к уменьшению вклада систематической ошибки.
Измерения в психологии.В психологии ответ, который испытуемый дает на задание теста, представляет собой аналог измерения длины одним из методов, описанных выше, - с одной лишь существенной разницей, имеющей практическое значение, особенно в случае личностных измерений.
Допустим, что в личностном опроснике задан вопрос: "Получаете ли вы удовольствие от шумных вечеринок?", на который можно ответить, отмечая по пятибалльной шкале ранги от – "совершенно согласен" до "совершенно не согласен". Попытаемся назвать ряд очевидных факторов, которые могут повлиять на то, какие ответы будут даваться. Среди таких факторов можно отметить следующие:
- уровень экстраверсии (личностная черта);
- число вечеринок, на которых недавно побывал испытуемый (фактор усталости);
- возраст испытуемого;
- его религиозные убеждения;
- контекст, в котором задавался вопрос (диагностическая ситуация);
- способ, который испытуемый использует при работе с пятибалльной шкалой: некоторые индивидуумы используют оценки 1 и 5 довольно свободно, в то время как другие никогда не обращаются к полюсам шкалы;
- склонность соглашаться: установлено, что люди склонны соглашаться с утверждениями;
- настроение испытуемого;
- случайная ошибка: если задать ему тот же самый вопрос двумя минутами позже, можете получить несколько отличающийся ответ.
Этот список, вероятно, может содержать и другие важные переменные, поскольку множество посторонних факторов определяет, каким образом индивидуум будет отвечать на вопрос в личностном тесте.
Такое же заключение относится и к оценкам поведения испытуемого или к оценкам его способностей. Следовательно, любой фрагмент собранных данных при оценке индивидуальных различий, подвержен влиянию большого числа разнообразных факторов.
В экспериментах, можно определить меру влияния каждого из этих факторов на индивидуальный ответ, полученный на каждый вопрос теста. Например, если вопрос предназначен для измерения такой черты, как экстраверсия, "хорошим" будет вопрос, при котором эффекты всех других переменных окажутся малы, аналогично тому, как на "хороший" показатель длины влияет расстояние, а не температура, давление воздуха или что-либо еще. В предыдущем примере, касавшемся измерения длины стола, реальная длина стола оказывала решающее влияние на показатели, получаемые с помощью сантиметра.
К сожалению, в психологии это не так. Практически невозможно найти вопрос личностного теста, для которого диагностируемая черта объясняла бы более чем 20—30% вариативности индивидуальных ответов на вопросы. Большая часть вариативности обязана своим происхождением другим факторам.
Проблема действительно сложная. Кажется, что невозможно придумать вопросы, которые измеряли бы черту в чистом виде, поскольку ответы индивидуумов на каждый вопрос теста подвержены влияниям множества черт, состояний, аттитюдов, настроений и везения. Можно ли надеяться, что личность или способности могут быть оценены с какой-либо степенью точности?
Тем не менее, существует подход к решению этой проблемы. Например, можно привести некоторые другие вопросы, измеряющие экстраверсию, каждый из которых зависит от действия различного набора посторонних факторов. Известно [10], что Айзенк считает экстравертов социабельными, оптимистичными, разговорчивыми, импульсивными и т.д., - значит, можно сформулировать вопросы, которые измеряли бы и эти переменные тоже. Вопрос типа "Ведете ли вы себя тихо во время общественных мероприятий?" был бы подвержен влиянию определенного числа посторонних факторов, но лишь некоторые из них оказались бы теми же, что и для первого вопроса.
Таким образом, если опросники конструировались из некоторого количества вопросов, на каждый из которых действует различный набор посторонних факторов, влияние последних будет иметь тенденцию к снижению, в то время как влияние черты будет накапливаться. Следовательно, чтобы разработать более точное измерение личностной черты, необходимо:
- написать несколько вопросов, каждый из которых отражает разные аспекты черты и, следовательно, оказывается под воздействием различных наборов посторонних факторов;
- оценить ответы на эти вопросы;
- сложить эти оценки вместе.
Средний балл, полученный по опроснику, неизбежно будет лучшей оценкой черты индивидуума, чем ответ на один-единственный вопрос, поскольку посторонние факторы устраняют действие друг друга. Это тот же принцип, о котором говорилось в примере с измерением длины стола. Когда мы используем этот принцип, 80%, 90% (и более) вариативности в общей оценке теста будет обусловливаться личностной чертой, что намного лучше, чем 20 или 30%, которые можно было бы получить с помощью одного отдельно взятого, даже самого хорошего, вопроса. Этот простой принцип составляет основу теории надежности, которую мы рассмотрим ниже.
Прежде чем перейти к ней, необходимо ввести еще один термин – "специфическая вариативность".
Вернемся к примеру с вопросом об экстраверсии. Вполне возможно, что некто, не являющийся экстравертом и не получающий удовольствия шумных компаний, и чей ответ не подвержен сильному влиянию любого другого постороннего фактора, может тем не менее просто извлекать удовольствие из "шумных" вечеринок.
Другими словами, может получиться так, что некоторые индивидуумы ответят на этот вопрос полным согласием, даже, несмотря на то, что такой вариант ответа невозможно предугадать исходя из знания их установок, личностных черт и прочих обстоятельств из числа "побочных факторов". Этот факт и учитывается с помощью понятия, называемого "специфической вариативностью".
Выше было показано, что отдельно взятый вопрос теста - плохое средство измерения черты и что значительно лучшую оценку ее выраженности можно получить, если мы сложим оценки, полученные по некоторому количеству вопросов, измеряющих различные аспекты черты.
Представим себе, что для измерения определенной черты разработано около к вопросов, и они предъявляются приблизительно n испытуемым. Пока мы только допускаем, что все вопросы измеряют одну и ту же черту (проблемы о том, как проверить это допущение и устранить вопросы, которые плохо ее измеряют, будут рассмотрены позже). Специализированные компьютерные программы (такие, как операция оценки "надежности" в SPSS, "STADIA") могут быть использованы, чтобы вычислить по этим данным статистическую характеристику, которую различные авторы называют как: "надежность" теста, "альфа", "коэффициент альфа", "KR-20", "альфа Кронбаха" или "внутренняя согласованность". Деталей того, как вычисляется эта статистика, мы касаться не будем, но их можно найти в большинстве учебников по статистике.
Как можно ожидать исходя из выше изложенного, на коэффициент альфа влияют два фактора:
- средняя величина корреляции между вопросами теста. Поскольку ранее мы допустили, что различные задания теста подвержены действию разных посторонних факторов, единственная причина, по которой ответы индивидуумов на любую пару заданий должны коррелировать между собой, состоит в том, что оба вопроса измеряют одну и ту же скрытую черту. Поэтому, если все вопросы теста измеряют одну и ту же черту, корреляции между ними будут высокими и положительными;
- количество вопросов в шкале. Еще раз подчеркнем, что общая цель построения шкалы из нескольких вопросов состоит в том, чтобы попытаться устранить действие посторонних факторов.
Легко понять: чем больше вопросов в шкале, тем более вероятно, что все эти посторонние факторы будут устранены. В этом случае может оказаться полезной формула Спирмена - Брауна (рассмотренная выше). Она позволяет предсказать, как будет увеличиваться или уменьшаться надежность шкалы, если число вопросов в шкале меняется.
Итак, надежность теста - это статистическая характеристика, которая может быть вычислена на основе любого набора данных (при условии, что выборка составляет не менее 200 испытуемых). Напомним также, что максимально возможное значение надежности составляет 1,0 (минимальное значение, при определенных обстоятельствах, может быть меньше 0).
Для больших тестов квадратный корень из коэффициента альфа представляет очень близкую аппроксимацию к корреляции между оценками индивидуумов по определенному тесту и подлинной оценкой их черты. Например, коэффициент альфа равный 0,7, предполагает корреляцию равную 0,84 ( =0,84), между оценками, полученными по тесту, и подлинными оценками испытуемых, в то время как величина коэффициента альфа, равная 0,9, подразумевает, что корреляция достигает такого высокого значения, как 0,95.
Поскольку основная цель использования психологических тестов - попытаться достичь максимально возможного приближения к подлинной оценке черты личности, из этого следует, что тесты должны иметь высокое значение коэффициента альфа.
Широко распространенное эмпирическое правило указывает на то, что тест не должен использоваться, если он имеет коэффициент альфа ниже 0,7, а применять его при принятии важных решений по поводу конкретного индивидуума (например, для оценки необходимости коррекционного обучения) можно только в том случае, если величина коэффициента альфа больше 0,9.
Теперь рассмотрим вопрос о содержании заданий теста. Проблема заключается в том, что довольно легко повысить среднюю корреляцию между заданиями теста, задавая несколько раз, по существу, один и тот же вопрос, слегка перефразируя его в каждом случае. Благодаря этому все посторонние факторы, которые влияют на первый вопрос, будут влиять и на второй. Поскольку оба вопроса имеют отношение к одному и тому же поведению, они будут также разделять большую часть своей специфической вариативности. Поэтому можно ожидать, что корреляция между двумя такими утверждениями будет близка к 1,0. Примерами двух таких утверждений могут быть:
"Мне нравятся шумные компании" и "Мне нравятся шумные вечеринки". Поскольку эти два задания, по сути, задают один и тот же вопрос, трудно представить себе, что многие люди могли бы полностью согласиться с одним и столь же решительно не согласиться с другим. Ответы на эти два вопроса обязаны иметь высокую положительную корреляцию. При условии, что корреляции между заданиями теста обычно невелики (в лучшем случае порядка 0,2-0,4), корреляция 0,9, полученная в результате сопоставления двух фактически идентичных утверждений, существенно увеличит среднюю корреляцию по тесту. В результате этого произойдет значительное увеличение коэффициента альфа.
Однако должно быть ясно, что в этом случае нарушаются два главных условия составления теста: каждый вопрос должен быть подвержен влиянию различного набора посторонних факторов, и каждый должен иметь свою собственную "уникальную" вариативность, которая не разделяется другими вопросами. Поэтому, крайне важно убедиться, что задания в каждой шкале хорошо подобраны. В некоторых случаях сделать это несложно.
Например, в случае разработки словарного теста просто необходимо подбирать задания из словаря (исключая те слова, которые встречаются ниже определенного порога частотности, или слова архаичные, специальные, т.е. профессиональные, термины). Когда это сделано, единственное, что будет влиять на корреляцию между ответами на пару заданий, - степень, с которой каждое из них измеряет скрытую черту (грамотность).
Не существует магической формулы для автоматической реализации этого принципа при конструировании тестов. Только от разработчика теста, зависит гарантия того, что единственной причиной, объясняющей корреляцию ответов на любую пару заданий, является та скрытая черта личности или способностей, которую они оба должны измерять. К сожалению, некоторые подходы к конструированию тестов, часто ведут к появлению большого количества искусственно завышенных корреляций, что дает, в свою очередь, завышенную оценку коэффициента альфа.
Важно также обеспечить, чтобы выборка испытуемых, чьи тестовые оценки используются для вычисления коэффициента альфа, была репрезентативна группе, в которой будет применяться данный тест. Бессмысленно, например, установив величину коэффициента альфа в размере 0,9 на выборке студентов университета, затем считать, что этот тест будет годиться для использования на общей популяции, поскольку студенты университета - это не случайная выборка. Еще раз подчеркнем, что не существует количественного способа определить, будет ли тест, имеющий высокое значение коэффициента альфа на одной выборке, так же работать на другой, - это дело здравого смысла. Самое безопасное - вычислять коэффициент альфа во всех случаях использования теста, хотя в качестве предварительного условия обязательным будет тестирование большей выборки испытуемых (рекомендуется выборка - минимум 200 человек). При использовании должным образом коэффициент альфа может быть очень полезен.
Выше мы использовали понятие "подлинная оценка", но не определили его значение. Рассмотрим его несколько подробнее.
Любой тест можно рассматривать как комплекс заданий, выбранных из большого набора вопросов, которые потенциально могли быть заданы. Например, тест на правописание - это выборка большого количества слов из словаря. Тест, измеряющий тревогу, - это набор всех (многих!) вопросов, которые можно было бы перечислить с целью измерения множества аспектов тревоги. Тест математических способностей - это выборка из почти бесконечного числа математических заданий, которые только можно было бы написать.
Итак, подлинное значение черты индивидуума - это оценка, которую он получил бы, если бы ему предъявили каждое возможное задание из полного набора.
Поясним это на примере. Если было бы необходимо оценить чью-либо способность правильно писать каждое слово из словаря, то можно было бы узнать точно, каковы способности этого человека к правописанию, поскольку отсутствовала бы ошибка измерения, обусловленная случайным выбором заданий. Однако в реальном тесте используется лишь небольшая выборка заданий из всего возможного набора.
Если задания теста формируют репрезентативную выборку по отношению к полному набору заданий, то квадратный корень из коэффициента альфа довольно точно оценивает корреляцию между оценкой, полученной испытуемыми при выполнении теста, и их подлинной оценкой (т.е. оценкой, которую они могли бы получить, если бы им были предъявлены все задания из полного набора).
Чем выше величина коэффициента альфа, тем меньше будет ошибка при измерении черты; зная надежность теста и стандартные отклонения тестовых оценок, можно найти статистическую характеристику, которая называется "стандартная ошибка измерения", которая показывает насколько ошибка измерения может быть связана с каждым измерением (формула для вычисления стандартной ошибки приведена ниже ; где σ –стандартное отклонение тестовых оценок; α – коэффициент надежности теста).
Таким образом, знание надежности теста позволяет делать некоторые заключения, касающиеся величины ошибки, которая, вероятно, имеется в любом измерении, при условии, конечно, что задания данного теста можно считать репрезентативными по отношению к полному набору заданий.
Дата добавления: 2016-04-02; просмотров: 920;