Устойчивость измерения.
О высокой надежности шкалы можно говорить лишь в том случае, если повторные измерения при помощи одних и тех же объектов дают сходные результаты устойчивость проверяется на одной и той же выборке исследуемых объектов (респондентов). Сравнение же средних оценок разных выборок ничего не говорит об устойчивости измерения как таковом, а только лишь о репрезентативности выборок и их соответствий одной, и той же совокупности. Обычно устойчивость проверяй проведением двух последовательных замеров с определенным временным интервалом — таким, чтобы этот промежуток не был слишком велик, чтобы сказалось изменение самого объекту но не слишком май, чтобы респондент мог по памяти «подтягивать» данные второго замера к предыдущему (т. е. его протяженность зависит от (объекта изучения и колеблется от двух до трех недель).
Осуществление более двух измерений связано с трудностями организации эксперимента и накапливанием ошибок другой природы, не связанной, с устойчивостью.
Пусть х — изучаемый на устойчивость признак, а отдельные его значения— х1, x2…хк. Каждый респондент l(l=1,…n) и при первом и при втором опросах получает некоторую оценку по изучаемому признаку — x1lи x2lсоответственно/
Результаты двух опросов в респондентов заносятся в таблицу сопряженности (табл. 30), которая служит основой для дальнейшего изучения вопросов устойчивости. Здесь nij — число респондентов, выбравших в первом опросе ответ хi и заменивших его при втором опросе на ответ xj.
Существует традиция изучать устойчивость с помощью анализа корреляций между ответами проб I и II. Однако этот подход недостаточно эффективен, поскольку не учитывает многих аспектов устойчивости.
Остановимся на более результативных показателях.
1. Показателем абсолютной устойчивости шкалы назовем величину, показывающую долю совпадающих ответов в последовательных пробах.
Этот показатель использует не всю информацию, содержащуюся в соотношении ответов проб I и II, а базируется лишь на частотах совпадающих ответов. Однако он хорош, например, для характеристики устойчивости качественных признаков.
Для описания устойчивости количественных признаков его недостаточно, поскольку при большом числе градаций доля совпадающих ответов будет чрезвычайно мала назначение W мало информативно. Здесь пригодны показатели неустойчивости, т. е. величины ошибки, учитывающие не просто факт несовпадения ответов, а степень этого несовпадения. Ошибки рассчитываются по крайней мере для порядковых признаков.
Линейной мерой несовпадения оценок, является средняя арифметическая ошибка, показывающая средний сдвиг в ответах в расчете на одну пару последовательных наблюдений:
Здесь х1 и х11 — ответы по анализируемому вопросу L - го респондента в I и II пробах соответственно.
Пример.Пусть ответы на вопрос в пятибальной шкале для выборки 50 человек распределились, как в табл. 31.
Таким образом, в I пробе оценку «1» дали 9 респондентов, из них только трое повторили ее в пробе II, пятеро отметили «2», один дал оценку «3» и т. д.
Данный показатель использует всю информацию, содержащуюся в распределении, хорошо интерпретируется как средний сдвиг в ответах одного респондента, однако имеет определенные ограничения аналитического характера и поэтому обычно редко используется в статистических расчетах.
Средняя квадратическая ошибка для последовательных данных17 в расчете на одну пару наблюдений выглядит так:
(совпадение Sx и 1AI в этом примере чисто случайное).
До сих пор речь шла об абсолютный ошибках, размер которых выражался в тех же единицах, что и сама измеряемая величина, например 0,82 балла в пятибалльной шкале. Это не позволяет сравнивать ошибки измерения разных признаков по разным шкалам. Следовательно, помимо абсолютных, нужны относительные показатели ошибок измерения.
В качестве показателя для нормирования абсолютной ошибки можно использовать максимально возможную ошибку в рассматриваемой шкале (Dmax).
Если число делений шкалы k, тогда Dmax равно разнице между крайними значениями шкалы (Xmax – Xmin), т. е. k—1, и относительная ошибка имеет вид
(здесь |D|— средняя арифметическая ошибка измерения).
Однако зачастую этот показатель «плохо работает» из-за того, что шкала не используется на всей ее протяженности. Поэтому более показательными являются относительные ошибки, рассчитанные по фактически используемой части шкалы, как было рассмотрено выше. Если число градаций в «работающей» части шкалы обозначить k', то тогда более надежной будет такая оценка ошибки:
Если в качестве абсолютной ошибки использовалась средняя квадратическая ошибка S, то показатель относительной ошибки
Пример.Допустим, что шкала имеет 7 градаций. При определении «работающей» части этой шкалы анализируется распределение полученных в I пробе оценок:
Здесь на оценки «5», «6»-, «7» приходится лишь 11 наблюдений, т. е. 2,26%. Проверка согласно критерию (формула (1)) устанавливает, что эта часть шкалы «не работает»; т. е. используются лишь градации 1, 2, 3, 4, поэтому Dmaх = 4 — 1 = 3. На основании соотношения ответов в I и II пробах находим сдвиги в ответах (ошибки). Распределение ошибок по этой шкале оказалось следующим:
измерения. Однако оценка по k также является довольно грубой и не использует всю информацию, содержащуюся в ответах I пробы ведь реально не все оценки могут дать максимальный сдвиг, а только крайние на шкале.
Оценим для приведенного распределения максимальный сдвиг по реально работающей части шкалы: только крайние значения (233, 78 + 11) могут дать сдвиг в 3 балла, 106 и 59 ответов могут дать максимальный сдвиг в 2 балла. Таким образом, возможный сдвиг для данного исходного распределения «может быть равен средней в 2,6 балла четырех балльной шкалы, т. е. фактическая ошибка еще больше: 0,6:2,6= 0,23.
Повышение устойчивости измерения. Для решения этой задачи необходимо выяснить различительные возможности пунктов: используемой шкалы, что предполагает четкую фиксацию респондентами отдельных значений: каждая оценка должна быть строго отделена от соседней. На практике это означает, что в последовательных пробах респонденты практически повторяют свои оценки. Следовательно, высокой различимости делений шкалы должна соответствовать малая ошибка.
Эту жё задачу можно описать в терминах чувствительности шкалы, которая характеризуется количеством делений, приходящихся на одну и ту же разность в значениях измеряемой величины, т. е. чем больше градаций в, шкале, тем/больше ее чувствительность. Однако чувствительность нельзя повышать простым увеличением дробности, ибо высокая чувствительность при низкой устойчивости является излишней (например, шкала в 100 баллов, а ошибка измерения ±10 баллов).
Во и при малом числе градаций, т. е. при низкой чувствительности, может быть низкая устойчивость, и тогда следует увеличить дробность шкалы. Так бывает, когда респонденту навязывают категорические ответы «да», «нет», а он предпочел бы менее жесткие оценки. И потому он выбирает в повторных испытаниях иногда «да», иногда «нет» для характеристики своего нейтрального положения.
Итак, следует найти некоторое оптимальное соотношение между чувствительностью и устойчивостью. Введём правило: использовать столько градаций в шкале, чтобы ее ошибка была меньше 0,5 балла. - : " .
Если ошибка меньше 0,5 балла, то в последовательных опросах ответы в среднем будут совпадать. При |D| >0,5 балла ответы в последовательных опросах будут в среднем отличаться на 1 балл (и выше).
Существуют способы, «позволяющие добиться требуемой чувствительности.
Пример.В исследовании каждый испытуемый дает 8 оценок некоторым профессиональным качествам инженеров. Значение оценок варьирует от +3 до —3. Проведено два измерения. Рассмотрим суммарное распределение оценок по четырем качествам (самостоятельность, творчество, инициативность, опытность), данных тринадцати респондентов (табл. 32).
Всего в табл 32 представлено 416 пар наблюдений: 13 респондентов X 8 оценок X 4 качества. Из них в первой пробе 226 оценок имели значение «3»; во второй пробе из них только 170 были повторены, 47 оценок получили значение «2», 6 оценок — значение «1» и 3 оценки — значение «О».
Таким образом, для исходной оценки «3» средняя оценка во второй пробе стала равной
На основании этого соотношения оценок получим распределение ошибок:
Рассчитаем среднюю арифметическую ошибку çDç= 0,69. Поскольку çDç> 0,5, ищем не различающиеся градации.
Средние оценки по каждой строке сравниваем с помощью критерия Стьюдента. Если окажется, что х1 и xi+1 отличаются незначимо (t<tкрит), то далее нужно сравнивать xi и xi+1 и т. д. до значимого отличия средних (tti, i+tзаписаны в последнем столбце табл. 32, а значимы» значения выделены).
Таким образом, оценки «3». и «2» отличаются между собой существенно, поскольку критерий Стьюдента фиксирует значимое различие между 2,70 и 2,47; оценки «2» и «1» несущественно отличаются друг от друга и т. д. Представим результаты сравнения исходных оценок при помощи схемы разбиения совокупности оценок на классы эквивалентности:
Здесь все оценки попадают в три непересекающихся класса: оценка «3» отличается от «2»; «2» и «1» не отличаются друг от друга, но отличаются от соседних оценок; последние четыре значения взаимно неразличимы.
Следовательно, респонденты различают лишь три уровня вместо семи предложенных, и шкала должна быть преобразована в трехбалльную, где высокой оценке соответствует исходная оценка в 3 балла, бредней — 2 и 1 балл; низкой — О, —1, —2, —3. Присвоим описанным уровням новые баллы — соответственно 3, 2, 1. В итоге имеем следующее соотношение оценок (табл. 33).
Это распределение характеризуется ошибкой çDç=0,43 балла, т. е. уже меньше 0,5 градации, и потому такая шкала устойчива.
В общем случае возможны два варианта соотношения исходных оценок: 1) классы неразличимости оценок неё пересекаются (например, как это было в только что рассмотренном случае);
2) классы неразличимости оценок пересекаются например так:
В первом случае можно подобрать для шкалы числовую серию, т. е. упорядоченный ряд чисел, в котором большее число характеризует более высокий уровень качества.
Во втором случае имеется полуупорядоченная система оценок, и ее можно отобразить лишь на полуупорядоченную числовую систему. В рассматриваемом примере возможно, в частности, такое числовое представление:
Там, где между исходными оценками нет существенного различия, разница между значениями числового представления (нижний ряд чисел) меньше 1; при значимом различии разница больше 1.
Однако часто желательно иметь преобразованные оценки, выраженные целыми числами. В таком случае можно предложить следующую систему понижения дробности шкалы: ближайшим исходным значениям, существенно отличающимся друг от друга, присваивают ранги последовательно I, II, III и, т. д. В рассматриваемом примере будет выглядеть так:
Для промежуточных значений, несущественно отличающихся от соседних (например, исходную оценку «2» можно отнести в любые классы — и в I, и во II), следует предложить дополнительные критерии отнесения их в один из двух соседних классов. Можно в качестве критерия использовать меру относительной близости промежуточной оценки к тому или иному соседнему классу и путем перебора всех возможных схем объединения искать схему с наименьшей ошибкой.
В конечном итоге порядок действия может быть таким. На основе данных двух последовательных проб определяем пороги различаемости градаций шкалы, В том случае, если обнаружено смешение градаций, применяют один из двух способов.
Первый способ, и итоговом варианте уменьшают дробность шкалы (например, из шкалы в 7 интервалов переходят на шкалу в 3 интервала).
Второй способ. Для предъявления респонденту сохраняют прежнюю дробность шкалы и только при обработке укрупняют соответствующие ее пункты (как это было показано выше).
Второй способ кажется предпочтительнее, поскольку, как правило, большая дробность шкал побуждает респондента и к более активной реакции. При обработке данных информацию следует перекодировать в соответствии с проведенным анализом различительной способности исходной' шкалы.
Итак, предложенные способы анализа целесообразны при отработке окончательного варианта методики. Анализ устойчивости отдельных вопросов шкалы позволяет; а) выявить плохо сформулированные вопросы, их неадекватное понимание разными респондентами; б) уточнить интерпретацию шкалы» предложенной для оценки того или иного явления, выявить более оптимальный вариант дробности значения шкалы.
Изучение устойчивости окончательного варианта методики даст представление о надежности данных (связанной устойчивостью), которые будут получены в основном исследовании.
Дата добавления: 2015-02-19; просмотров: 1368;