Обоснованность измерения.
Проверка обоснованности шкалы предпринимается лишь после того, как установлены достаточные правильность и устойчивость измерения исходных данных. Как уже отмечалось, проверка обоснованности — достаточно сложный процесс я, как правило, не до конца разрешимый, И поэтому нецелесообразно сначала применять трудоемкую технику для выявления обоснованности, а после- Этого убеждаться в неприемлемости данных вследствие их низкой устойчивости.
Обоснованность данных измерения — это доказательство соответствия между тем, что измерено, и тем, что должно было быть измерено. Некоторые исследователи предпочитают исходить из так называемой наличной обоснованности, т. е. обоснованности в понятиях использованной процедуры. Например, считают, что удовлетворенность работой— это то свойство, которое содержится в /ответах -на вопрос: «Удовлетворены ли Вы работой?» В серьезном социологическом исследовании, имеющем целью проверку некоторые теоретических гипотез, такой сугубо эмпирический подход неприемлем.
Остановимся на возможных формальных подходах к выяснению уровня обоснованности методики. Их можно разделить на три группы: 1) конструирование, типологии в соответствии с целями исследования на базе нескольких признаков; 2) использование параллельных данных; 3) судейские процедуры.
Первый вариант нельзя считать формальным методом — это всего лишь некоторая схематизация логических рассуждений, начало процедуры обоснования, которая может быть на этом и закончена, а может быть подкреплена более мощными средствами.
Второй вариант требует использования по крайней мере двух источников для выявления одного и того же свойства. Обоснованность определяется степенью согласованности соответствующих данных.
В последнем случае мы полагаемся на компетентность судей, которым предлагается определить, измеряем > ли мы нужное Вам свойство или что-то иное.
Рассмотрим предложенные варианты последовательно. Конструированная типологиях Один из способов —использование контрольных вопросов, которые _в совокупности- с основными дают большее приближение к содержанию изучаемого свойства, раскрывая различные его стороны.
Например, можно определять удовлетворенность работой лобовым вопросом: «Устраивает ли вас Ваша нынешняя работа?» Комбинация его с двумя другими косвенными: «Хотите ли Вы перейти на другую работу?» и «Предположим, что Вы по каким-то причинам временно не работаете. Вернулись бы Вы на свое прежнее месте работы?» позволяет произвести более надежную дифференциацию респондентов. Типология по пяти упорядоченным группам от наиболее удовлетворенных работой до наименее удовлетворенных проводится с помощью «логического квадрата.
Обоснованность в подобного рода типологии не доказывается каким-либо формальным критерием и опирается на логические доводы.
Единственное требование, которое может быть выдвинуто при конструировании такого рода типологии,— это положительная корреляция между составляющими ее признаками. Отсутствие положительной взаимосвязи между вопросами может свидетельствовать о том, что мы не понижаем сущности измеряемого явления.
Так, попытка построить типологию самостоятельности инженера в работе на базе двух вопросов — сложность получаемых инженером заданий (плюс за сложность) и обращение его за консультациями (плюс за самостоятельное решение) — оказалась неудачной, ибо вопросы коррелировали отрицательным образом и как раз сложность задания предполагала обращение к консультациям.
Параллельные данные. Нередко целесообразно разработать два равноправных приема измерения заданного признака, что позволяет установить обоснованность методов относительно друг друга, т.е. повысить общую обоснованность путем сопоставления двух независимых результатов.
Классифицируем параллельные процедуры в зависимости от соотношения методов и исполнителей: а) несколько методов — один исполнитель. б) один метод — несколько исполнителей; в) несколько методов — несколько исполнителей.
Несколько методов — один исполнитель. Здесь один и тот же исполнитель использует два или более различных метода для измерения одного и того же свойства.
Рассмотрим различные способы использования этого метода, и прежде всего — эквивалентные шкалы. Понятие эквивалентности тесно связано здесь с психологическим явлением социальной установки. Всевозможные акты поведения, обусловленные некоторой установкой, или состояние (Предрасположенности к определенному поведений: составляют целостность (универсум) данной предрасположенности. Универсум можно описать совокупностью признаков.
Возможны равнозначные выборки признаков для описания — измерения социальной установки. Эти выборки и образуют параллельные шкалы, обеспечивая параллельную надежность.
Каждую шкалу рассматриваем как способ измерения некоторого свойства в зависимости от числа параллельных шкал имеем ряд способов измерения. В качестве исполнителя выступает респондент, дающий ответы одновременно по всем параллельным шкалам. Все ответы сортируем в зависимости от принадлежности ki шкале и таким образом получаем параллельные данные.
При обработке такого рода данных следует выяснить два момента: 1) непротиворечивость пунктов отдельной шкалы; 2) согласованность оценок по разным шкалам.
Первая проблема возникает в связи о тем, что модели ответов не представляют идеальной картины: ответы нередко, противоречат ДРУГ другу, Такая противоречивость свойственна как кумулятивным, так я некумулятивным шкалам. Поэтому встает вопрос, что принимать за истинное значение оценки респондента на данной шкале.
Вторая проблема непосредственно касается сопоставления параллельных данных,
Рассмотрим пример неудавшейся попытки повысить надежность измерения признака «удовлетворенность инженера профессией» с помощью трех параллельных порядковых шкал. Приведем две из них:
15 суждений (в порядке, обозначенном слева) предъявляются респонденту общим списком, и он должен выразить свое согласие или несогласие с каждым из них. Каждому суждению присваивается оценка, соответствующая его рангу в указанной шкале (справа). (Например, согласие с суждением 4 дает оценку «1», согласие с суждением 11 —оценку «5» и т. д.).
Рассматриваемый здесь способ предъявления суждений списком дает возможность проанализировать пункты шкалы на непротиворечивость. При использовании упорядоченных номинальных шкал обычно считается, что пункты, образующие шкалу, взаимно исключают друг друга и респондент легко, найдет тот из них, который ему подходит.
Изучение распределений ответов показывает, что респонденты выражают согласие с противоречивыми (с точки зрения исходной гипотезы) суждениями. Например, по шкале «S» 42 человека из 100 одновременно согласились с суждениями 13 и 12, т. е. с двумя противоположными суждениями.
Наличие в ответе противоречивых суждений приводит к необходимости вычислять ошибку противоречивости. Это будет разница в рангах, наиболее противоположных для данной шкалы суждений в ответе респондента.
Итак, средние ошибки, характеризующие противоречивость для рассматриваемых шкал, оказались равными
Dа=0,37; Db=1,57
Ошибка в 1,57 балла при пятибалльной оценке, видимо, слишком велика, чтобы считать шкалу приемлемой.
Для эквивалентных шкал итоговая оценка респондента рассчитывается как суммарная (или усредненная) оценка по разным шкалам. Однако для правомерности такой процедуры необходимо установить соответствие оценок респондента по всем рассматриваемым шкалам.
В вышеприведенном примере такого соответствия не наблюдалось, что сказалось на коэффициенте корреляции r= -0,02.
Поиск эквивалентной процедуры для повышения надежности шкалы весьма утомительная и кропотливая операция. Поэтому данный прием можно рекомендовать лишь при разработке ответственных психологических тестов или методик, предназначенных для массового употребления или панельных исследований.
Один метод — несколько исполнителей. Если метод надежен, то разные исполнители дадут совпадающую информацию, но если Их результаты плохо согласуются, то либо измерения ненадежны, либо результаты отдельных исполнителей нельзя считать равноценными. В последнем случае надо установить, нельзя ли считать какую-либо группу результатов заслуживающей большего доверия. Решение этой задачи тем более важно, если предполагается, что одинаково допустимо получение информации любым из рассматриваемых методов (например, использование самооценок против оценок). Анализ параллельных данных с помощью описанных ниже процедур позволит установить правильность такого предположения.
Для количественных признаков при решении вопроса о согласованности оценок нескольких исполнителей предлагается выявить ошибки соответствия одним из приемов, рассмотренных при изучении устойчивости. Прежде всего, поскольку мы имеем здесь случай прямых групповых наблюдений, наиболее адекватной оценкой совпадения данных является средняя квадратическая ошибка.
Пусть каждый раз измерение производят два человека, и респонденту приписывается значение в виде средней (х) из двух исходных. Оценку точности такого измерения следует производить по формуле
Пример.Двое судей оценивают опытность инженера в работе по семибальной шкале. Предположим, что 13 респондентов получили такие оценки:
Итак, средняя ошибка при таком способе оценивания респондента составляет почти 1 балл. В том случае, если число измерений каждого объекта равно 3, формула для расчета ошибки будет
где n – число респондентов (объектов).
s2i – дисперсия оценок i-го респондента.
Допустим, что рассмотренную выше совокупность из 13 респондентов оценивают не двое, а трое судей, т. е. добавляется еще одна строчка данных и следующие расчеты:
Как видно, оценивание с помощью трех лиц значительно надежнее, чем с помощью двух (соответствующие ошибки 0,69 и 0,97).
Обоснование измеряемого свойства путем определения уровня согласованности нескольких шифровальщиков — классический прием, используемый в контент-анализе документов. Этот метод, выявления надежности особенно необходим здесь, ибо, как правило, анализируемый документ не имеет в тексте четких границ измеряемого признака, референты которого расплывчаты и толкуются неоднозначно, самые детальные инструкции по шифровке все же не дают исчерпывающих указаний.
Тем же способом можно изучать совпадения оценок и самооценок. Если согласованность оценок со стороны «судей» и соответствующих самооценок респондентов будет достаточно высокой, это может означать, что методика достаточно обоснованна. Во всяком случае, одновременное использование оценок и самооценок дает возможность глубже понять сущность измеряемых признаков, уточнить их смысл.
Несколько методов и, несколько исполнителей. Одним из способов установления обоснованности измерения некоторого качества у одного и того же респондента (объекта) .является фиксирование данного свойства разными исполнителями, владеющими разными .методами. Как и предыдущих случаях, здесь нельзя установить некую абсолютную, обоснованность, поэтому рассматривается лишь, обоснованность одного способа относительно другого.
Такая ситуация наблюдает, например, в случае, если руководитель ранжирует своих подчиненных по какому-то качеству а исследователь ранжирует этих же людей на основании их опроса по специально разработанной методике. Скорее всего надежность первого способа ранжирования значительно выше, и обоснованность второго метода следует проверять по его согласованности с первым.
Используя параллельные методы измерения одного и того же свойства, исследователь сталкивается с целым рядом трудностей.
Во-первых, неясно, в какой мере оба метода измеряют одно и то же качество объекта, причем, как правило, формальных критериев для проверки такой гипотезы не существует. Следовательно, необходимо прибегнуть к содержательному (логико-теоретическому) обоснованию того или иного метода.
Во-вторых, если обнаруживается, что параллельные процедуры измеряют общее свойство (данные существенно не различаются), остается вопрос о теоретико-содержательном соответствии этих процедур, .
Нельзя не признать, что сам принцип использования параллельных процедур оказывается, не формальным, а скорее содержательным принципом, и решение остается за теоретико-методологической концепцией исследования.
Именно теоретическая позиция исследователя, теоретическая обоснованность метода измерения оказываются решающими факторами при решении вопроса о предпочтительности той или иной процедуры. Такое заключение необходимо сделать по отношению к параллельным процедурам, когда ни одна из них не обладает большей достоверностью по сравнению с другой.
Метод судейства при обосновании процедур измерения. Один из широко распространенных подходов к установлению обоснованности — это использование так называемых судей. Исследователи обращаются к определенной группе людей с просьбой выступить в качестве судей или компетентных лиц. Им предлагают набор признаков, предназначенный для измерения изучаемого явления, и просят оценить правильность отнесения каждого из признаков к этому объекту. Совместная обработка мнений судей позволит присвоить признакам веса или, что то же самое, шкальные оценки в измерении изучаемого явления. В качестве набора признаков может выступить список отдельных суждений, серия предметов, совокупность обследуемых лиц и т. д.
Процедуры судейства многообразны. Способ выявления отношения признаков к измеряемому свойству определяет сущность метода. Это могут быть методы парных сравнений, ранжирования, последовательных интервалов и т. д. В каждом случае, выбирая ту или иную технику судейства, необходимо учитывать ее специфические возможности, влияющие на уровень обоснования судейских оценок.
Вопрос о том, кого следует считать судьями, достаточно дискуссионен. Судьи, выбираемые в качестве представителей изучаемой совокупности так или иначе должны представлять ее микромодель: по оценкам судей исследователь определяет, насколько адекватно будут истолкованы респондентами пункты опросной процедуры или другие обращенные к респонденту стимулы.
Однако при отборе судей возникает трудноразрешимый вопрос, каково влияние собственных установок судей на их оценки, ведь эти установки Могут существенно отличаться от установок обследуемых в отношении того же самого объекта.
Ясно, что в каждом конкретном случае следует осуществлять контроль такого рода ошибок применительно к данной выборке судей.
Так, используя мужчин и женщин в качестве судей для оценки потенциальных творческих возможностей различных занятий на досуге, нашли, что установки судей-мужчин существенно отличаются от установок судей-женщин. Более того, их установки зависят от того, увлекается ли сам судящий данным видом досуга. Например, женщины, которые занимаются рукоделием, значительно выше оценивают творческие возможности этого занятия, чем те, которые им не занимаются.
В общем виде решение, проблемы состоит в том, чтобы: а) внимательно проанализировать состав судей с точки зрения адекватности их жизненного опыта и признаков социального статуса соответствующим показателям обследуемой генеральной совокупности; б) выявить эффект индивидуальных уклонений в оценках судей относительно общего распределения оценок. Наконец, следует оценить не только качество, но и объем выборочной совокупности судей. Здесь также нет единодушия между специалистами. Рекомендуется брать то 25—30 человек, то 200—300 и более. Серьезных обоснований в обоих случаях не приводится.
Рассмотрим эту проблему на языке измерения. Поскольку судьи должны измерить некоторое свойство, которое содержится в данном признаке, процедуру судейства можно понимать таким образом: каждый судья i (1 = 1, 2, ..., N), измеряя одно и то же свойство, дает признаку некоторую оценку х и помещает его в некоторый класс значений. Имея оценки N судей, получаем N измерений одного и того же признака. Если признаков k, то имеем Nk измерений. Количество судей надо поставить в прямую зависимость от вариаций их мнений и, таким образом, от однозначности измеряемого объекта.
С одной стороны, это количество определяется согласованностью: если согласованность мнений судей достаточно высокая и соответственно ошибка измерения мала, численность судей может быть небольшой. Нужно задать значение допустимой ошибки и на основании ее рассчитать требуемый объем выборки.
При обнаружении полной неопределенности объекта, т. е. в случае, когда мнения судей распределятся равномерно по всем категориям оценки, никакое увеличение объема выборки судей не спасет ситуацию и не выведет объект из состояния неопределенности.
С другой стороны, количество измерений и соответственно число судей должны быть целесообразными. Очевидно, что 1000 судей дадут более надежные данные, но разумнее ограничиться меньшим количеством, особенно если требования к точности измерения являются не слишком высокими.
Здесь возникает проблема точности (устойчивости) измерения. Рассмотрим с этой точки зрения принципиально разные варианты судейства:
1) производится классификация состояний объекта (сам объект имеет качественные градации);
2) находится количественная оценка изменяющихся состояний объекта, представляющих собой континуум.
В первом случае при определении объема выборки судей необходимо задать некоторый уровень определенности в их мнениях, т. е. энтропия распределения оценок должна быть не выше некоторого порогового значения. Во втором задается уровень допустимой ошибки. Далее возникает вопрос о численности градаций в судейских оценках, что относится к чувствительности любой измерительной процедуры. В общем случае речь идет не о чем ином, как о чувствительности измерения, зависящей и от изменчивости объекта, и от устойчивости инструмента измерения. Основной способ определения дробности судейских оценок — выявление их устойчивости путем двух последовательных (современным интервалом) судейств по единой процедуре. Эта операция уже рассматривалась выше в разделе об устойчивости.
Если объект достаточно не определен, то большое число градаций только внесет дополнительные помехи в работу судей и не принесет более точной информации. Нужно выявить устойчивость судейских мнений с помощью повторной пробы и соответственно сузить число градаций.
Выбор того или иного конкретного способа, метода или техники проверки на обоснованность зависит от многих обстоятельств.
Прежде всего следует четко установить, возможны ли какие-то существенные отклонения от запланированного предмета измерения. Как правило, интерпретация полученных данных вследствие различных погрешностей измерения не отвечает полностью эмпирической интерпретации понятий или свойств, которыми, согласно гипотезе, обладает этот объект. Бели программа исследования ставит чрезвычайно жесткие рамки следует использовать не один, а несколько приемов проверки данных на обоснованность, с тем чтобы четко определить границы достоверности заключения по гипотезе. Если же она не столь жестко ограничивает содержание объекта, уточнение уровня обоснованности поможет интерпретировать данные в несколько иных направлениях в соответствии с результатами проверки на обоснованность исходного измерения.
Во-вторых, нужно иметь в виду, что уровни устойчивости и обоснованности данных тесно взаимосвязаны. Неустойчивая информация уже в силу недостаточной надежности при этому критерию не требует, слишком строгой проверки на обоснованность. Следует обеспечить достаточную устойчивость и уже затем принять соответствующие меры для уточнения границ интерпретации данных
Наконец, надо сказать, что для оперативных Исследований, программа которых разработана лишь в общем виде: (т. е, имеется скорее общий набросок логики исследования, общий замысел), можно ограничиться проверкой данных на устойчивость, используя эту информацию. Для некоторых, хотя бы гипотетических, суждений относительно обоснованности.
Выбор конкретной Техники проверки данных на обоснованность— задача скорее содержательная, чем формальная. Мы показали, как решается эта задача в зависимости от особенностей методики, подлежащей проверке на обоснованность, того места, которое она занимает в рамках всего исследования, и, главное, в соответствии со спецификой объекта измерения.
Многочисленные эксперименты по выявлению уровня надежности исходной информации, в частности рассмотренные в этой главе, позволяют заключить, что в процессе отработки инструментов измерения со стороны их надежности целесообразна следующая последовательность основных этапов работы:
1. Предварительный контроль обоснованности методов измерения первичных, данных на стадии проб методики. Здесь проверяется, насколько - информация отвечает своему назначению по существу и каковы пределы последующей интерпретации данных. Для этой цели достаточны небольшие выборки в 10-20 наблюдений с последующей корректировкой структуры методики.
2. Пилотаж методики и тщательная проверка устойчивости исходных данных, в особенности итоговых показателей, индексов, многомерных шкал и т. п. На этом этапе нужна выборка не менее 100 человек, представляющая микромодель реальной совокупности обследуемых с учетом представительства по существенным характеристикам объекта исследования.
3. В период общего пилотажа осуществляются все необходимые операции, относящиеся к проверке, уровня обоснованности. Результаты анализа данных генерального пилотажа приводят к усовершенствованию методики, к доработке всех ее деталей и в итоге — к- получению окончательного варианта методики для основного исследования.
4. В начале основного исследования желательно провести проверку используемого варианта методики на устойчивость с тем, чтобы рассчитать точные показатели ее устойчивости. Доследующее уточнение границ обоснованности проходит через весь анализ самого исследования.
Литература для дополнительного чтения
Аванесов В. С. Тесты в социологическом исследовании. М.: Наука, 1982. 199 с.
Бородкин Ф. М., Маркин Б. Г. Эмпирические, описания в социологии.— В кн.: Математика и социология. Новосибирск: Наука. Сиб. отд-ние, 1972, с. 3—41
Воронов Ю. П., Ершова Н. П. Общие принципы социологического измерения.— В кн.: Намерение и моделирование в социологии. Новосибирск: Наука. Сиб. отд-ние, 1969, с. 3—15.
Грин Ф. Б. Измерение установки.— В кн.: Математические методы в. современной буржуазной социологии. М.: Прогресс, 1966, с. 227—287.
Докторов Б. 3. О надежности измерения в социологическом исследовании. Л.: Наука, 1979. 128 с.
Жуков Ю. М. Применение шкалирования в социально-психологических исследованиях.— В кн.: Методология и методы социальной психологии. М.: Наука, 1977, с. 126—135.
Зайцева М. Л. Методы шкалирования при измерении установки.— В кн.: Социальные исследования. М.: Наука, 1970, вып. 5, с. 220—242.
Клигер С. А., Косолапое М. С., Толстова Ю. И. Шкалирование при сборе и анализе социологической информации. М.: Наука, 1978. 112 с.
Лазарсфельд П. Ф. Измерение в социологии.— В кн.: Американская социология: Перспективы, проблемы, методы. М.: Прогресс, 1972, с. 134—149.
Осипов Г. В.. Андреев Э. П. Методы измерения в социологии. М.: Наука, 1977. 183 с.
Процесс социального исследования. Прогресс. 1975, разд. 1,4,2. Саганенко Г. И. социологическая информация: Статистическая оценка надежности исходных данных социологического исследования. Л.: Наука, 1979. 142с.
Статистическое измерение качественных характеристик. М.: Статистика, 1972. . 173 с.
Суппес П. Зинес Дж. Основы теории измерений.— В кн.: Психологические измерения. М.: Мир, 1967, с. 9—110.
Дата добавления: 2015-02-19; просмотров: 1016;