Однофакторный дисперсионный анализ
Понимание ценнее знания. П. Ланжевен. |
Задачи дисперсионного анализа
При исследовании однотипных величин возникают задачи их сравнения. Сравнение случайных величин производится путем сопоставления законов распределения или их моментов.
Законы распределения можно сопоставить на основе критерия Вилкоксона при нулевой гипотезе Н0 о равенстве законов распределения двух случайных величин Fx=Fy и конкурирующей гипотезе Н1 в виде:
Fx<Fy или Fx>Fy.
В этих случаях критическая область является односторонней. Поэтому нижнюю критическую точку и квантиль распределения находят при уровне значимости a. Содержание остальных этапов проверки гипотез сохраняется. Следует отметить, принятие гипотезы Н1 о том, что
Fx<Fy, означает X>Y.
Действительно, неравенство Fx(x)<Fy(x) равносильно неравенству
P(X<x)<P(Y<x),
следовательно, X>Y. Аналогично, если справедлива гипотеза Fx>Fy, то X<Y.
Вполне естественно сопоставление случайных величин на основе моментов проводить путем сравнения их математических ожиданий. Однофакторный дисперсионный анализ позволяет установить, оказывает ли существенное влияние некоторый фактор Ф, который имеет несколько уровней, на исследуемую случайную величину.
Задача сравнения выборок случайных величин формулируется следующим образом.
Имеются результаты наблюдений в виде совокупности слоев типа (4.1), задан уровень значимости a для проверки статистической гипотезы. В данном случае отдельные слои трактуются как выборки одной и той же случайной величины, полученные по результатам наблюдения за одним объектом при различных значениях фактора Ф (количество уровней фактора равно m).
Требуется проверить нулевую гипотезу Н0 о равенстве математических ожиданий случайных величин всех выборок. Иначе говоря, требуется установить, значимо или незначимо различаются выборочные средние значения, вычисленные для каждого слоя.
Допущения: генеральные совокупности, соответствующие каждому слою, распределены нормально; дисперсии слоев одинаковы; математические ожидания, дисперсии, законы распределения случайных величин для различных слоев неизвестны, сами случайные величины являются непрерывными. Вполне понятно, что первые два условия являются наиболее существенными и весьма ограничивают область применения методов дисперсионного анализа.
Основная идея дисперсионного анализа состоит не в сопоставлении математических ожиданий случайных величин, а в сравнении оценки "факторной дисперсии", порождаемой воздействием фактора, и оценки "остаточной дисперсии", обусловленной случайными причинами. Если различие между этими оценками значимо, то фактор оказывает существенное влияние на случайную величину, в противном случае влияние фактора несущественно. Если установлено существенное влияние фактора, то каждому слою соответствует своя оценка математического ожидания. Упорядочение значений оценок математического ожидания позволит выявить влияние фактора.
Эту же задачу можно было бы решить путем проверки нулевой гипотезы о равенстве минимального и максимального значений оценок математического ожидания, вычисленных по всем слоям. Но такое сопоставление выборок игнорирует информацию, содержащуюся во всех слоях, кроме выбранных, и поэтому нецелесообразно.
Дисперсионный анализ выполняется поэтапно. Такими этапами являются следующие:
проверка выборок на принадлежность к нормальному закону распределения. Этап необходим, когда нет априорной информации о законах распределения слоев. Сущность такой проверки была рассмотрена в разделе 3 пособия. Если принадлежность нормальному закону не подтвердится, то аппарат дисперсионного анализа, вообще говоря, применять нельзя. Некоторые исследователи допускают его применение при больших объемах выборок (объем каждой выборки должен быть не менее 30) независимо от вида закона распределения;
проверка равенства оценок дисперсий во всех слоях выборки (проверка однородности дисперсий). Если однородность не подтвердится, то методы дисперсионного анализа не применимы;
вычисление оценки факторной и остаточной дисперсии;
сравнение средних значений величин методом дисперсионного анализа и формирование выводов по результатам сравнения.
Проверка однородности совокупности дисперсий
Для каждого слоя вычисляется несмещенная оценка дисперсии, обозначим эти оценки через m2(х), m2(y), …, m2(w) соответственно. Числа степеней свободы этих оценок
k1=п1–1, k2=п2–1, …, kw = пw–1.
Гипотеза Н0 состоит в том, что выборки, по которым определены оценки дисперсии, получены из генеральных совокупностей, обладающих одинаковыми дисперсиями
m2(x)=m2(y)= … =m2(w)=m2,
при этом величина дисперсии m2 остается неизвестной. Следует выяснить, являются ли величины m2(х), m2(y), …, m2(w) оценками одной и той же генеральной дисперсии m2.
Рассмотрим сначала случай, когда объем выборок по слоям хотя бы частично различается. В такой ситуации применяется критерий однородности Бартлетта. Проверка однородности реализуется в несколько шагов.
Вычисляется усредненная оценка несмещенной дисперсии по всем слоям
, | (4.4) |
где , m2(i) – несмещенная оценка дисперсии для слоя i.
Рассчитывается значение критерия
. | (4.5) |
Бартлетт установил, что случайная величина В при условии справедливости нулевой гипотезы распределена приближенно как хи-квадрат с т–1 степенями свободы, если все ni больше трех. По заданному уровню значимости a, числу степеней свободы т–1 для правосторонней критической области определяется критическое значение c2кр(т–1; a). Если соблюдается условие
B <c2кр(т–1; a),
то нет оснований отвергнуть нулевую гипотезу. Если B>c2кр(т–1; a), то нулевая гипотеза отвергается. Критерий Бартлетта чувствителен к отклонениям распределения от нормального, поэтому к результатам сравнения следует относится осторожно, а при одинаковом объеме всех слоев вместо критерия Бартлетта лучше применять критерий Кочрена (Кохрена).
Итак, если k1=k2= … =kт, то применяется критерий Кочрена
, | (4.6) |
где m2,max – максимальная оценка дисперсии по всем слоям.
Критическая область для критерия Кочрена правосторонняя. Критическую точку Gкр(k1, m; a) находят по таблице распределения Кочрена, фрагмент которой приведен в табл. П.7. Критическая область определяется неравенством G>Gкр(k1, m; a).
Сравнение факторной и остаточной дисперсий
Пусть все выборки (4.1) характеризуют одну случайную величину Х при различных значениях фактора Ф, т.е. каждый слой соответствует одному количественному или качественному значению фактора. Сравнение дисперсий производится в следующем порядке:
рассчитывается среднее значение (оценка математического ожидания) по всей совокупности наблюдений , где п=п1+п2+…+пт, а хij – j-й элемент i-го слоя;
вычисляются средние значения для всех слоев (групп) ;
определяется общая сумма квадратов отклонений наблюдаемых значений от оценки математического ожидания
; | (4.7) |
определяется факторная сумма квадратов отклонений средних по слоям от оценки математического ожидания (характеризует рассеяние между слоями)
; | (4.8) |
определяется остаточная сумма квадратов отклонений наблюдаемых значений внутри слоя от своей средней
. | (4.9) |
Величина Sфакт характеризует влияние фактора Ф. Это положение можно пояснить следующим образом. Пусть фактор оказывает существенное влияние на величину Х. Тогда результаты наблюдения для одного слоя, вообще говоря, отличаются от результатов, представленных в других слоях. Следовательно, различаются и средние значения по слоям, причем они тем больше отличаются от оценки математического ожидания по всей выборке, чем больше проявляется влияние фактора. Таким образом, сумма квадратов отклонений средних по слоям от общей средней и характеризует влияние фактора (возведение отклонений во вторую степень исключает взаимную компенсацию положительных и отрицательных отклонений).
Наблюдения внутри одного слоя различаются из-за воздействия случайных причин. Именно сумма квадратов отклонений наблюдаемых значений в каждом слое от среднего значения в слое и характеризует воздействие этих причин, т.е. величина Sост отражает суммарное влияние случайных причин на значение величины Х.
Величина Sобщ, как сумма квадратов отклонений конкретных значений от среднего значения, характеризует суммарное влияние фактора и случайных причин. Можно показать, что
Sобщ=Sост+Sфакт,
тогда для вычисления остаточной суммы квадратов можно воспользоваться более простым соотношением
Sост=Sобщ–Sфакт .
Разделив суммы квадратов отклонений на соответствующее число степеней свободы, получим оценки общей, факторной и остаточной дисперсий:
. | (4.10) |
Если средние значения случайной величины, вычисленные по отдельным выборкам одинаковы, то оценки факторной и остаточной дисперсий являются несмещенными оценками генеральной дисперсии и различаются несущественно. Тогда сопоставление оценок этих дисперсий по критерию Р. Фишера
F=m2факт/m2ост
должно показать, что нулевую гипотезу о равенстве факторной и остаточной дисперсий отвергнуть нет оснований. Если m2факт<m2ост, то нет необходимости прибегать к вычислению критерия Р. Фишера – из неравенства сразу следует вывод о выполнении нулевой гипотезы. Итак, из справедливости гипотезы о равенстве средних величин по группам следует соблюдение гипотезы о равенстве факторной и остаточной дисперсий.
Если нулевая гипотеза о равенстве средних величин по слоям является ложной, то с увеличением расхождения между слоями возрастает оценка факторной дисперсии, а вместе с ней и величина критерия F=m2факт/m2ост . В результате значение F превысит критическое значение, и гипотеза о равенстве дисперсий будет отвергнута.
Рассуждая от противного, можно доказать справедливость утверждений: из справедливости (ложности) гипотезы о дисперсиях следует истинность (ложность) гипотезы о математических ожиданиях. Таким образом, вместо проверки нулевой гипотезы Н0 о равенстве средних значений для совокупности выборок следует проверить гипотезу о равенстве факторной и остаточной дисперсий.
Пример 4.2.Методом дисперсионного анализа при уровне значимости 0,05 проверить нулевую гипотезу о равенстве средних значений по слоям, применительно к результатам наблюдений, табл. 4.1. Предполагается, что выборки принадлежат нормальному распределению, а каждый слой соответствует некоторому значению фактора Ф.
Решение. Необходимо проверить однородность дисперсий, а затем непосредственно провести дисперсионный анализ. Проверим гипотезу об однородности дисперсий. Для этого вычислим:
оценки математического ожидания по слоям (групповые средние)
mгр1=263,93; mгр2=262,95; mгр3=265,32;
несмещенные оценки дисперсии по слоям
m2(1)=29,79; m2(2)=54,20; m2(3)=34,61;
усредненную оценку несмещенной дисперсии по всем слоям
m2=((29,79)5+(54,20)6+(34,61)6)/17 = 40,11.
значение критерия Бартлетта
В=a/c=0,56/1,08=0,52,
где а=2,303(17 lg 40,11–(5 lg 29,79+6 lg 54,20+6 lg 34,61))=0,56;
с=1+(1/5+1/6+1/6–1/17)/[3(3–1)]=1,08.
Критическое значение хи-квадрат для правосторонней области
c2кр(2; 0,05)=6,0.
Поскольку величина В меньше c2кр(2; 0,05), отвергнуть нулевую гипотезу об однородности дисперсий нет оснований.
Дисперсионный анализ предусматривает вычисление:
суммы квадратов Sобщ=701,65; Sфакт=19,81; Sост=681,84;
оценок дисперсий m2общ =701,65/19=36,93; m2факт=9,81/2=9,91; m2ост=681,84/17=40,10.
Оценка факторной дисперсии меньше оценки остаточной дисперсии, поэтому можно сразу утверждать справедливость нулевой гипотезы о равенстве математических ожиданий по слоям выборки, Иначе говоря, в данном примере фактор Ф не оказывает существенного влияния на случайную величину.
Дата добавления: 2017-10-09; просмотров: 767;