Методы количественной обработки данных
3.1. Первичная и вторичная количественная обработка
Процесс количественной обработки данных имеет две фазы: первичную и вторичную.
Первичная количественная обработка нацелена на упорядочивание информации об объекте и предмете изучения, полученной на эмпирическом этапе исследования. К основным методам первичной обработки относятся: табулирование, построение диаграмм, гистограмм (ступенчатая диаграмма), полигонов распределения (соединяются прямыми отрезками верхние точки центральных осей всех участков гистограммы) и кривых распределения (полигон распределения, но плавные кривые линии). Диаграммы отражают дискретное распределение, остальные графические формы – непрерывное.
Вторичная количественная обработказаключается главным образом в статистическом анализе итогов первичной обработки. Здесь важно получить ответы на три главных вопроса.
1. Какое значение наиболее характерно для выборки?
Для решения этого вопроса вычисляются т.н. «меры центральной тенденции». Это величины, являющиеся обобщающими, и к ним относят: среднее арифметическое, медиану, моду, среднее геометрическое и среднее гармоническое. В психологии обычно используют первые три.
- среднее арифметическое (оценка математического ожидания) вычисляется по формуле:
X=М=∑xi/n,
где xi – каждое наблюдаемое значение признака, i – индекс, указывающий на порядковый номер данного значения признака;
n – количество наблюдений.
- медиана (Ме)– это точка на измерительной шкале, выше и ниже которой находится ровно по 50% величин ряда (наблюдений). Её определяют по срединному рангу по формуле:
Ме=(n+1)/2
Т.е., чтобы вычислить медиану, необходимо проранжировать ряд значений (наблюдений). Полученное значение медианы может не соответствовать значению ряда, а находится между двумя соседними значениями, тогда вычисляется среднее арифметическое этих значений.
Например, имеем ряд 3-5-6-7-9-10-11-12. Проранжировав его, имеем 1-2-3-4-5-6-7-8. Ранговая медиана в этом ряду: Ме=8+1/2=4,5. Этому рангу соответствует середина между членами первоначального ряда, имеющими ранги 4 и 5. Следовательно, медиана этого ряда равна 8 (7+9/2). Следует отметить, что величины 8 в ряду нет, но таково значение медианы этого ряда.
- мода (Мо) – это значение, наиболее часто встречающееся в выборке. Пример: 2, 6, 6, 8, 9, 9, 9, 10; Мо=9.
Если все значения в группе встречаются одинаково часто, то считается, что моды нет. Если два соседних значения имеют одинаковую частоту и они больше частоты любого другого значения, мода есть среднее этих двух значений (например: 1, 2, 2, 2, 4, 4, 4, 5, 5, 7; Мо=3). Если то же самое относится к двум несмежным значениям, то существует две моды, а группа значений признака является бимодальной (пример: 0, 1, 1, 1, 2, 3, 4, 4, 4, 7; Мо=1 и 4).
Обычно среднее арифметическое применяется при стремлении к наибольшей точности, и когда впоследствии нужно будет вычислять стандартное отклонение. Медиана – когда в значениях признака есть нетипичные данные (например: 1, 3, 5, 7, 9, 26, 13). Мода – когда не нужна высокая точность, но важна быстрота определения меры центральной тенденции.
2. Велик ли разброс данных относительно среднего значения?
Для ответа на этот вопрос применяются меры изменчивости (рассеивания, разброса). Они позволяют судить о степени однородности полученного множества, о его компактности, и косвенно – о надёжности получаемых результатов. Наиболее используемые в психологических исследованиях: размах, среднее отклонение, дисперсия, стандартное отклонение, квартильное отклонение.
- размах (Р) – это интервал между максимальным и минимальным значениями признака. Определяется легко, но чувствителен к случайностям, особенно при малом числе данных. Пример: (0, 2, 3, 5, 8; Р=8); (-0,2, 1,0, 1,4, 2,0; Р=2,2)
- среднее отклонение (МД) – это среднее арифметическое разницы (по модулю) между каждым значением в выборке и её средним:
МД=∑d/N,
где d=│XM│; где М – среднее выборки; Х – конкретное значение; N – число значений.
Множество всех конкретных отклонений от среднего характеризует изменчивость данных, но, если их не взять по модулю, то их сумма будет равна нулю, и мы не получим информации об их изменчивости. МД показывает степень скученности данных вокруг среднего (иногда вместо М берут Ме или Мо).
- дисперсия (Д) (от лат. – рассыпанный).
Д=∑d2/(N-1) или σх2=∑(хi-хср)2*(mi / N-1),
где mi – количество появлений значений хi при N наблюдениях.
Для больших выборок (N≥30) в знаменателе просто N.
- стандартное отклонение или среднее квадратичное отклонение. В психологии принято обозначать эту величину σ (сигма):
σ = √∑(xi – x)2/n-1
- коэффициент ковариации является относительной характеристикой рассеивания и рассчитывается по формуле:
V= (σх / хср)*100%
- квартильное отклонение (Q). На практике нам часто важно узнать не точку, а интервал значений, следовательно, ось накопленной частоты (если все значения разместить на оси) разбивается на равное количество интервалов. Это S-образная кривая (ось накопленной частоты), где М – генеральная средняя. Функция этой кривой выглядит символически следующим образом:
F(Х) = (1/σ√2π*)∫((-(t-µ)2)/ 2σ2)dt
Точки на оси накопленной частоты, делящие её в установленной пропорции, называются квантилями (отсюда название квантильной стандартизации тестов). Среди квантилей выделяют квартили, квинтили, децили, процентили. Например, 3 квартиля (Q1, Q2, Q3) делят выборку на 4 равные части (кварты) таким образом, что 25% испытуемых ниже Q1, 50% ниже Q2, 75% ниже Q3, 99 процентилей делят выборку на 100 равных частей (процентов) и т.д.
- квартиль первая вычисляется по формуле: Q1=(R1+Rn/2)/2, т.е. полусумма первого и последнего рангов первой – левой от медианы - половины ряда;
- квартиль третья: Q3=(Rn/2+Rn)/2, т.е. полусумма первого и последнего рангов второй – правой от медианы – середины ряда.
Полученным значениям рангов соответствуют определённые величины в исходном ряду данных. Для характеристики Распределения вычисляется среднее квартильное отклонение:
Q=(Х1(Q3)-Х2(Q1))/2,
где Х1 и Х2 – значения ряда, соответствующие третьей и первой квартили.
Понятно, что при симметричном распределении Q2 и Ме будут совпадать. А вообще точка на оси, соответствующая Q2 определяется после отделения 50% всех значений выборки.
3. Существует ли взаимосвязь между отдельными данными в имеющейся совокупности и каковы характер и сила этих связей?
Для решения этого вопроса необходимо вычислить меры связи (корреляции). Меры связи выявляют соотношения между двумя переменными. Эти связи вычисляют с помощью коэффициентов корреляции.
- коэффициент корреляции Карла Пирсона вычисляется путём нормирования ковариации переменных на произведение их среднеквадратических отклонений:
rxy=(∑(xср-xi)(yср-yyi)/√∑(xср-xi)2∑(yср-yyi)2.
Значение коэффициента может варьировать от -1 до +1.
- коэффициент ранговой корреляции Чарльза Эдварда Спирмена:
rs=1-6*∑d2/(N(N2-1))
Его полученное значение необходимо сравнить с табличным (в справочниках, учебниках по статистике, специальных изданиях и др.).
3.2. Виды количественного анализа данных
Статистический анализ данных, входящий в процедуру обработки результатов исследования включает в себя, кроме указанного, следующее.
1. Дисперсионный анализ (ДА). В отличие от корреляционного, может выявлять зависимость между двумя, тремя и т.д. переменными. Изменения изучаемого признака могут быть вызваны как несколькими переменными, так и их взаимодействием, что может выявить ДА.
2. Факторный анализ. Позволяет снизить размерность пространства данных, т.е. обоснованно уменьшить количество измеряемых признаков за счёт их объединения в некоторые совокупности (факторы). Основой анализа является матрица корреляций, т.е. таблицы коэффициентов корреляции каждого признака со всеми остальными. В зависимости от числа факторов в корреляционной матрице различают:
- однофакторный (по Спирмену);
- бифакторный (по Холзингеру);
- многофакторный (по Терстону.
Весьма сложный математический и логический аппараты факторного анализа часто затрудняют выбор адекватного задачам исследования варианта метода.
3. Регрессионный анализ. Метод позволяет изучать зависимость среднего значения одной величины от вариации другой (других) величины. Специфика метода заключается в том, что хотя бы одна из рассматриваемых величин носит случайный характер. Тогда описание зависимости распадается на две задачи: 1) выявление общего вида зависимости и 2) уточнение путём вычисления оценок параметров зависимости. Решение первой задачи – дело мастерства и интуиции исследователя, т.к. стандартных методов её решения не существует. Решение же второй задачи по сути представляет собой нахождение аппроксимирующей кривой. Чаще всего эта аппроксимация осуществляется с помощью математического метода наименьших квадратов.
Идея этого метода принадлежит Фрэнсису Гальтону, заметившему, что у очень высоких родителей дети были несколько меньше ростом, а у очень маленьких родителей – дети более рослые. Эту закономерность он назвал регрессией.
4. Таксономический анализ. Это математический приём группировки данных в классы (таксоны, кластеры) таким образом, чтобы объекты, входящие в один класс, были более однородны по какому-либо признаку по сравнению с объектами, входящими в другие классы. В итоге появляется возможность определить в той или иной метрике расстояние между изучаемыми объектами и дать упорядоченное описание их взаимоотношений на количественном уровне. В силу недостаточной проработанности критериев эффективности и допустимости кластерных процедур данный метод рассматривается как дополнительный или дополняется другими методами, в частности, факторным анализом.
Дата добавления: 2016-05-16; просмотров: 5229;