Одномерный дисперсионный анализ

Как было сказано выше, одномерный дисперсионный анализ исследует влияние одной или нескольких независимых переменных на одну зависимую. Одномерный дисперсионный анализ может быть однофакторным (one-way ANOVA) или многофакторным (n-way ANOVA). В первом случае есть только одна независимая переменная; во втором — несколько.

Однофакторный одномерный дисперсионный анализ можно проводить двумя способами: при помощи специальной процедуры One-way ANOVA (меню Analyze ► Compare Means ► One-way ANOVA) или посредством обобщенной линейной модели (меню Analyze ► General Linear Model ► Univariate). Второй прием является более универсальным и обладает полным объемом функциональности первого, поэтому далее мы рассмотрим только GLM (использование первого метода аналогично GLM). Необходимо отметить, что для проведения одномерного дисперсионного анализа на практике (в маркетинговых исследованиях) существует одно весьма существенное ограничение. При увеличении количества факторов (то есть независимых переменных) в модели сложность интерпретации результатов расчета возрастает многократно. Так, однофакторный анализ является наиболее простым. Его результаты понятны сразу при взгляде на итоговую таблицу. Двухфакторный анализ намного сложнее в интерпретации — чтобы понять его результаты, приходится потратить много времени, разбираясь в таблицах и графиках. Для интерпретации результатов трехфакторного анализа необходимо обладать некоторым опытом в его проведении. Четырех- и мультифакторные модели в большинстве своем могут успешно интерпретироваться только квалифицированными исследователями. Таким образом, для практических целей лучше воздержаться от исследования большого числа взаимодействий между факторами и ограничиться несколькими наиболее важными. В настоящем разделе мы последовательно рассмотрим одно-, двух- и трехфакторные модели одномерного дисперсионного анализа. При этом будут использоваться следующие исходные данные:

Исследуется покупательское поведение потребителей глазированных сырков. Респонденты разделяются на целевые группы в зависимости от их пола (q3), возраста (q4) и количества членов семьи (q72). Одним из вопросов анкеты является: «Какое количество глазированных сырков в среднем Вы покупаете за одно посещение магазина?» (q6) с вариантами ответа: 1 шт., 2 шт., 3 шт., 4 шт., 5 шт., 6-7 шт., 8-10 шт. и более 10 шт. Требуется выяснить, различается ли кратность покупок глазированных сырков различными целевыми группами респондентов (половыми, возрастными и по количеству членов семьи).

Прежде всего мы проведем однофакторный одномерный дисперсионный анализ и установим, насколько значимо различается кратность покупок в различных возрастных группах респондентов (1 — младше 18 лет; 2 — 19-35 лет; 3 — 36-60 лет; 4 — старше 60 лет).

Диалоговое окно одномерного дисперсионного анализа запускается при помощи меню Analyze ► General Linear Model ► Univariate (рис. 3.9). Из левого списка всех доступных переменных переместите в поле для зависимой переменной Dependent Variable переменную q6 (Кратность покупок). Как видите, в качестве зависимой переменной в дисперсионном анализе выступает основание сегментирования респондентов по группам, то есть та переменная, которая и определяет различия между категориями независимой переменной. (Это замечание достаточно сложно осознать, так как при проведении дисперсионного анализа как бы стираются границы в трактовке зависимых и независимых переменных — по крайней мере, по сравнению с другими видами статистического анализа, например регрессионного.)

В область для независимых переменных Fixed Factor(s) поместите Возраст (q4). Обратите внимание на разницу между областями Fixed Factor(s) (факторы с фиксированными эффектами) и Random Factor(s) (факторы со случайными эффектами). Фиксированными факторами называют переменные, уровни которых охватывают все возможные состояния этой переменной. Например, пол может быть только мужской или женский, а возраст, например, младше 30 лет, от 30 до 60 лет и старше 60 лет. Случайные факторы представляют переменные, уровни которых охватывают лишь часть из всего многообразия возможных состояний. Так как в нашем случае переменная q4 (Возраст) содержит все возможные возрастные группы респондентов, мы поместили ее в область фиксированных факторов.

Рис. 3.9. Диалоговое окно Univariate

Если после этого вы щелкнете на кнопке ОК, то получите только одну таблицу, из которой можно узнать лишь о наличии/отсутствии значимых различий между возрастными группами. Однако останется неизвестным, какие именно группы отличаются от других.

Для того чтобы определить это, существуют дополнительные статистические тесты, задаваемые при помощи кнопки Post Hoc. Соответствующее диалоговое окно представлено на рис. 3.10. Перенесите из области Factor(s) в область Post Hoc Tests for те независимые переменные (факторы), которые необходимо подвергнуть тестированию на предмет установления различий между их группами. В нашем случае есть всего одна факторная переменная q4, которую и следует перенести в область тестирования. Далее укажите релевантные дополнительные тесты для указанной переменной. При этом, как видно на рисунке, SPSS выводит различные тесты для равных и неравных дисперсий (Equal Variances Assumed и Equal Variances Not Assumed соответственно).

Установить равенство/неравенство дисперсий позволяет тест Levene, вывод которого на экран мы покажем ниже. В общем случае мы не знаем, равны ли дисперсии и, соответственно, какую группу статистических тестов следует использовать. Поэтому рекомендуется сразу вывести тесты для равных и неравных дисперсий, чтобы сократить количество итераций при проведении дисперсионного анализа. SPSS предлагает много различных дополнительных тестов, помогающих определить различия между группами исследуемых переменных. Однако использовать их все нецелесообразно. Мы рекомендуем ограничиться наиболее популярным и универсальным тестом Scheffe для равных дисперсий и тестом Tamhane's T2 — для неравных дисперсий. Теперь можно закрыть описываемое диалоговое окно щелчком на кнопке Continue.

Рис. 3.10. Диалоговое окно Univariate: Post Hoc Multiple Comparisons for Observed Means

Выше мы упомянули о специальном тесте, позволяющем установить равенство/ неравенство дисперсий. На необходимость проведения данного теста (так же как и многих других) можно указать в диалоговом окне Options, вызываемом одноименной кнопкой в главном диалоговом окне Univariate (рис. 3.11). Для однофакторного дисперсионного анализа можно ограничиться только одним тестом Levene на равенство дисперсий (параметр Homogeneity tests).

Рис. 3.11. Диалоговое окно Univariate: Options

Следует отметить, что если исследуемая независимая переменная имеет всего две категории (дихотомия), апостериорные тесты для нее не проводятся. Установить направление различия между категориями позволяет вывод средних значений зависимой переменной в каждой из двух категорий. Для этого перенесите исследуемую независимую дихотомическую переменную из области Factor(s) and Factor Interactions

в область Display Means for. В нашем случае единственная независимая переменная Возраст имеет больше двух категорий (4), и поэтому специально выводить для нее средние значения нет смысла (они будут выведены в таблице Homogenous Subsets).

Остальные кнопки главного диалогового окна Univariate предназначены для многофакторного анализа, рассматриваемого ниже. Теперь щелкните на кнопке О К, чтобы запустить процедуру дисперсионного анализа. В окне SPSS Viewer будут выведены результаты расчетов.

Первой практически значимой таблицей является результат теста на равенство дисперсий зависимой и независимых переменных Levene's Test of Equality of Error Variances (рис. 3.12). В столбце Sig. данной таблицы содержится единственное интересующее нас значение — это статистическая значимость тестовой статистики F. Если значение в данном столбце показывает незначимость F — значит, дисперсии равны, и в дальнейшем мы будем анализировать результаты расчета теста Scheffe (предполагающего равенство дисперсий). В противном случае, если F-статистика значима, — дисперсии не равны, и при анализе различий между группами следует использовать тест Tamhane's T2 (предполагающий неравенство дисперсий). Как вы видите на рисунке, статистика F незначима (Sig. = 0,433) — и, следовательно, можно сделать вывод о равенстве дисперсий.

Рис. 3.12. Таблица Levene's Test of Equality of Error Variances

Следующая таблица — это Tests of Between-Subjects Effects (рис. 3.13). Данная таблица является центральной в выводимых результатах дисперсионного анализа и показывает наличие/отсутствие значимых различий между категориями исследуемых переменных. Первое, на что следует обратить внимание при анализе описываемой таблицы, — это величина R2, отражающая долю совокупной дисперсии в зависимой переменной, описываемой статистической моделью. Другими словами, это та часть вариации зависимой переменной, которую можно объяснить на основании независимой переменной. Естественно, что чем меньше независимых переменных, тем меньше величина R2, и наоборот.

Так, в нашем случае есть только одна независимая переменная q4 (Возраст), и при этом R2 весьма мала (0,019). Для дисперсионного анализа значения R2 можно просто проигнорировать, так как они не важны для практического использования полученной модели'. Второе, на что обращают внимание исследователи при интерпретации таблицы Tests of Between-Subjects Effects, — это собственно значимость различия между группами независимой переменной. Этот вывод следует из значения на пересечении строки, содержащей соответствующую независимую переменную, и столбца Sig.. Как вы видите на рисунке, имеет место статистически высоко значимое различие между различными возрастными группами респондентов по кратности покупок глазированных сырков (значимость F-статистики у переменной q4 < 0,001). Обратите внимание, что если тест Levene выявил факт неравенства дисперсий независимых и зависимых переменных, следует поднять по

рог значимости со стандартного значения 0,05 до 0,01.

Рис. 3.13. Таблица Tests of Between-Subjects Effects

После того как мы установили наличие статистически значимого различия между возрастными группами респондентов на основании кратности покупок сырков, необходимо определить, какие из четырех имеющихся возрастных групп отличаются от остальных и каким образом (в большую или в меньшую сторону).

Давайте сделаем это при помощи таблицы Multiple Comparisons, представленной на рис. 3.14. При интерпретации данной таблицы прежде всего вспомните результаты теста Levene. Так, в нашем случае на основании данного теста дисперсии оказались равными, и поэтому в данной таблице мы будем рассматривать только ту ее часть, в которой приведены расчеты по методу Scheffe (напомним, что тест Tamhane мы бы применяли только если бы дисперсии были неравны).

Итак, в первой части таблицы (Scheffe) мы видим сравнение различий между каждой из четырех возрастных категорий с остальными категориями. На основе этих данных и определяются та или те группы, которые значимо отличаются от других. Так, из столбца Sig. (статистическая значимость) мы видим, что только группа респондентов старше 60 лет статистически значимо отличается от всех остальных. Остальные целевые группы не отличаются друг от друга. При этом из столбца Mean Difference можно видеть, насколько отличается среднее значение той или иной группы от среднего значения других групп (звездочками отмечены значимые различия при 95%-ном доверительном уровне)1.

Наконец, в последней таблице Homogeneous Subsets (рис. 3.15) представлена однозначная картина различий между группами независимой переменной. Здесь все возрастные группы разделены на две категории на основании различий в кратности покупок. В первую категорию входит целевая группа респондентов старше 60 лет; во вторую — все остальные возрастные группы (то есть респонденты младше 60 лет). Если бы оказалось, что статистически значимых различий в кратности покупок глазированных сырков различными возрастными группами респондентов не наблюдается, все группы независимой переменной были бы отнесены к одной категории (Subset был бы только 1). Иногда возникает ситуация, при которой одна и та же группа респондентов может относиться сразу к нескольким группам. В таком случае следует поднять порог значимости со стандартных 0,05, скажем, до 0,01 (или любого другого значения).

Рис. 3.14. Таблица Multiple Comparisons

Также из рассматриваемой таблицы можно сделать вывод о направлении различия между выделенными категориями. Так, в нашем случае мы можем заключить, что респонденты старше 60 лет покупают глазированные сырки в меньших объемах, чем респонденты младше 60 лет. В точности определить размер или величину различия можно, только если в качестве зависимой переменной выступает интервальная переменная. Так как у нас переменная q6 Кратность покупок относится к порядковой шкале, мы не можем сделать точный вывод о величине различия. Если стоит такая задача, можно преобразовать зависимую порядковую переменную к интервальному виду (например, при помощи перекодирования кодов групп в средние значения данных групп: 1 (от 16 до 18 лет) —> 17 и пересчитать дисперсионный анализ. Это даст хотя бы приблизительную оценку величины различия. Нам достаточно только установленной статистической значимости (то есть существования) различия и его направления (респонденты старше 60 лет покупают меньше сырков, чем более молодые).

Рис. 3.15. Таблица Homogeneous Subsets

Рассмотрим теперь ситуацию, когда необходимо исследовать сразу две независимые переменные (и взаимодействия между ними), то есть выполнить двухфактор-ный одномерный дисперсионный анализ.

Исходные данные останутся такими же, как в предыдущем примере, однако теперь мы будем устанавливать различие в кратности покупок сырков возрастными и половыми группами (переменная q3). Для этого вновь откроем диалоговое окно Univariate (рис. 3.9) и добавим в область для фиксированных факторов (независимых переменных с фиксированными эффектами) переменную Пол. При проведении многофакторного анализа (двухфакторной и более) кнопка Model позволяет задать исследование либо всех возможных взаимодействий между независимыми переменными (в нашем случае будет установлено различие не только между четырьмя возрастными и двумя половыми группами по отдельности, но и между каждой половозрастной группой), либо только каких-то конкретных взаимодействий. В диалоговом окне Model можно задать и другие значения, но для большинства задач маркетинговых исследований достаточно оставлять все эти значения по умолчанию. Иными словами, кнопкой Model лучше не пользоваться. То же самое касается и кнопки Contrasts (исследование взаимодействий между уровнями независимых переменных), а также кнопки Save, позволяющей сохранять некоторые значения. В большинстве практических случаев, встречающихся в маркетинговых исследованиях, при проведении дисперсионного анализа вам не потребуется ничего сохранять. При проведении многофакторного дисперсионного анализа в диалоговом окне Post Нос (рис. 3.10) следует добавить к списку исследуемых переменных все независимые факторы, кроме дихотомических. В нашем случае переменная Пол является

дихотомической, так что добавлять ее в область Post Hoc Tests for (дополнительно к переменной Возраст) не следует. Таким образом, все параметры этого диалогового окна останутся неизменными по сравнению с предыдущим примером.

В диалоговом окне Options (рис. 3.11) необходимо добавить дихотомическую переменную q3 (Пол), а также ее взаимодействие с переменной q4 (Возраст) — q3*q4 — в область Display Means for, что позволит вывести средние значения по каждой группе мужчин и женщин при определении направления различия между ними. После этого можно запускать процедуру дисперсионного анализа на выполнение.

В окне SPSS Viewer будут выведены результаты расчетов. Они будут отличаться от результатов предыдущего примера. Во-первых, как видно из рис. 3.16, тест Levene теперь является значимым (Sig. = 0,033), из чего следует вывод о неравенстве дисперсий.

Рис. 3.16. Таблица Levene's Test of Equality of Error Variances

Во-вторых, в таблице Tests of Between-Subjects Effects появились результаты расчета значимости F-статистики для переменной Пол (q3), а также для взаимодействия q3*q4. Как видно из рис. 3.17, мужчины и женщины не имеют статистически значимых различий по кратности покупок глазированных сырков. То же относится и к взаимодействию q3*q4: оно не является статистически значимым. При этом, несмотря на неравенство дисперсий (порог значимости возрос до 0,01), переменная q4 (Возраст) сохранила свое значимое влияние на зависимую переменную (Sig. = 0,011), то есть возрастные группы по-прежнему различаются по кратности покупок сырков. Необходимо также отметить, что с добавлением переменной q3 доля совокупной дисперсии в зависимой переменной, объясняемая построенной моделью, несколько возросла (R2 = 0,022).

После таблицы Tests of Between-Subjects Effects следуют расчеты средних значений для дихотомической переменной q3 (Пол) и для взаимодействия q3 x q4 (рис. 3.18). В нашем случае ни переменная q3, ни ее взаимодействие с q4 не являются статистически значимыми, поэтому данные таблицы бесполезны. Однако если бы переменная Пол была значима (то есть различие между мужчинами и женщинами существовало), на основании первой таблицы можно было бы сделать заключение о том, какая именно половая группа покупает больше сырков.

Так, если предположить, что влияние переменной Пол статистически значимо, из рис. 3.18 можно было бы заключить, что женщины покупают глазированные сырки в больших объемах по сравнению с мужчинами. То же можно сказать и относительно второй таблицы (Пол х Возраст). Случается, что по результатам таблицы Tests of Between-Subjects Effects некая переменная оказывается незначимой, однако в таблице Multiple Comparisons отдельные уровни этой переменной значимо отличаются друг от друга. В такой ситуации все равно следует признать рассматриваемую переменную незначимой и в дальнейшем игнорировать связанные с нею апостериорные тесты.

Рис. 3.17. Таблица Tests of Between-Subjects Effects

Рис. 3.18. Таблицы Estimated Marginal Means

Завершают вывод результатов двухфакторного анализа таблицы с расчетами апостериорных тестов. В нашем случае они практически такие же, как в предыдущем примере, поскольку переменная Возраст сохранила свою значимость (см. рис. 3.14 и 3.15). Однако при интерпретации таблицы Multiple Comparisons следует помнить

о неравенстве дисперсий. Поэтому значимость различий между отдельными возрастными группами надо устанавливать на основании второй части таблицы Tamhane.

Итак, мы рассмотрели одно- и двухфакторный одномерный дисперсионный анализ. Далее мы поговорим более подробно о трехфакторном дисперсионном анализе. На его примере мы рассмотрим построение графиков и методы их использования с целью облегчения интерпретации значимых взаимодействий между переменными.

Теперь мы будем использовать все четыре переменные из исходного условия задачи (см. выше), то есть проанализируем различия в кратности покупки глазированных сырков анализируемыми целевыми группами респондентов (половыми, возрастными и по количеству членов семьи). Откройте диалоговое окно Univariate и добавьте в список независимых переменных (область Fixed Factor(s)) еще одну переменную q72 (Количество членов семьи).

Здесь необходимо сделать одно важное отступление. Время проведения расчетов в дисперсионном анализе (как одномерном, так и многомерном) при добавлении каждого нового фактора существенно возрастает. Если при этом зависимая переменная содержит достаточно большое количество уровней, расчеты могут затянуться на весьма длительное время. Исследователям-практикам следует знать об одной существенной особенности SPSS: скорость ее работы лимитируется тактовой частотой основного микропроцессора и объемом оперативной памяти (скорость работы жесткого диска не играет существенной роли). SPSS может использовать в своей работе только один процессор, то есть если у вас в компьютере установлено два и более процессора, для SPSS это не будет иметь никакого значения. Поэтому при работе с данной программой мы настоятельно рекомендуем использовать мощные машины с высокопроизводительным процессором и достаточным объемом оперативной памяти. К сожалению, в настоящее время не все отечественные компании имеют возможность приобретать мощные компьютеры. Предлагаем следующий выход. В главном диалоговом окне Univariate есть кнопка Model, которая, как мы сказали выше, в маркетинговых исследованиях используется редко, поскольку при проведении дисперсионного анализа не требуется анализировать сразу много (четыре и более) факторов и, следовательно, скорость работы программы будет приемлемой. Однако если в анализ приходится включать четыре и более независимых переменных, придется воспользоваться кнопкой Model. Щелкните на ней — и вы увидите одноименное диалоговое окно, показанное на рис. 3.19. По умолчанию в SPSS выбрана полнофакторная модель дисперсионного анализа Full factorial, где исследуется влияние на зависимую переменную:

1. всех независимых переменных по отдельности;

2. всех возможных взаимодействий между независимыми переменными.

Именно на расчеты, связанные со вторым пунктом, и тратится основное время. Поэтому при ограничениях, налагаемых аппаратным обеспечением компьютера, следует отказаться от использования полнофакторных моделей в пользу определяемых пользователем (Custom). Если ограничения жесткие, можно выполнить только исследования влияния независимых переменных на зависимую по отдельности (в терминологии SPSS, Main effects)1.

Рис. 3.19. Диалоговое окно Univariate: Model

В данном диалоговом окне в левом списке содержатся все выбранные для анализа независимые переменные. Чтобы определить пользовательскую модель, в левом списке Factors & Covariates выберите переменные, которые будут включены в итоговую пользовательскую модель. Затем из раскрывающегося списка Build Term(s) выберите тот или иной тип взаимодействия между переменными. И наконец, щелкните на соответствующей кнопке, чтобы перенести сформированную пользовательскую модель в правый список Model.

Если вы хотите рассмотреть только влияние факторных переменных по отдельности, выполните действия, показанные на рис. 3.19. Выберите все независимые переменные в левом списке, тип модели Main effects и перенесите эти переменные в правую область. Другими видами моделей являются:

■ Interaction — исследование всех видов взаимодействий между выбранными переменными;

■ АН 2-, 3-, 4-, 5-way — исследование только взаимодействий соответственно второго (ql*q2), третьего (ql*q2*q3), четвертого (ql*q2*q3*q4) и пятого (ql*q2*q3*q4*q5) порядков.

Обратите внимание, что одновременно можно сформировать в правом списке Model сколько угодно различных моделей, подбирая только основные, необходимые вам взаимодействия факторов.

Для иллюстрации решения задачи (выполнение трехфакторного дисперсионного анализа) не будем задавать пользовательские модели, а воспользуемся полнофакторной моделью, установленной по умолчанию. В диалоговом окне Model есть еще два не рассмотренных ранее параметра: Sum of squares и Include interceptin model. Первый параметр позволяет задать тип формулы для расчета суммы квадратов (тестовой величины, на основании которой и производится расчет статистической значимости различий). В маркетинговых исследованиях рекомендуется использовать тип III, установленный по умолчанию. Второй параметр служит для указания на необходимость включить в итоговую модель расчеты значимости отрезка значений. Данный параметр также можно всегда оставлять установленным по умолчанию.

Вернемся к описанию решения поставленной задачи. Мы добавили в соответствующие поля главного диалогового окна Univariate одну зависимую переменную и cразу три независимые. При помощи кнопок Post Hoc и Options необходимо выбрать те же параметры, которые мы выбирали для одно- и двухфакторного анализа. В результате останется не рассмотренной одна важная кнопка в главном диалоговом окне Plots, позволяющая указать параметры для построения графиков. Эту кнопку следует использовать в тех ситуациях, когда обнаружено статистически значимое взаимодействие между факторами.

Для того чтобы построить график взаимодействия факторов, сначала мы должны провести дисперсионный анализ по обычной схеме (без графиков) и выяснить, есть ли значимые взаимодействия. После щелчка на кнопке ОК в окне SPSS Viewer будут выведены результаты расчетов для трехфакторного одномерного дисперсионного анализа. Нет смысла приводить их здесь — в них нет ничего для вас нового. Вместо этого давайте посмотрим, как интерпретировать значимые взаимодействия между факторами.

Существует два основных способа интерпретации взаимодействий:

■ в табличной форме — по результатам апостериорных тестов;

■ в графической форме — по построенным графикам взаимодействий.

Графическая форма представления результатов зачастую более предпочтительна по сравнению с табличной, особенно при анализе взаимодействий трех и более уровней. На рис. 3.20 показано диалоговое окно Profile Plots. Для того чтобы построить график по двухуровневому взаимодействию, из левого списка всех независимых переменных (область Factors) выберите переменную, категории которой будут располагаться по оси абсцисс (горизонтальной), и поместите ее в поле Horizontal Axis. Далее выберите переменную, значения каждой категории которой будут отображаться на графике в виде отдельных линий (пример см. ниже), и поместите ее в поле Separate Lines.

Рис. 3.20. Диалоговое окно Univariate: Profile Plots

Для иллюстрации процесса построения графиков предположим, что по результатам трехфакторного дисперсионного анализа была установлена статистическая значимость взаимодействия между переменными q3 (Пол) и q4 (Возраст). В окне Profile Plots мы поместили переменную с наименьшим числом категорий q3 в поле Horizontal Axis, а переменную q4 — в поле Separate Lines. Теперь щелкните на кнопке Add, чтобы подтвердить построение графика с заданными параметрами. Таким способом можно задать вывод сразу нескольких графиков.

После того как SPSS завершит расчеты, связанные с дисперсионным анализом, в окне SPSS Viewer после таблиц появится заданный график. В нашем примере он будет выглядеть так, как показано на рис. 3.21.

Рис. 3.21. График взаимодействия q3*q4

По оси ординат здесь (вертикальная ось) располагаются средние значения кратности покупок глазированных сырков каждой из рассматриваемых половозрастных групп. При этом на рисунке видно, что в возрастных группах от 36 до 60 лет и старше 60 лет кратность покупок сырков мужчинами и женщинами практически не различается (соответствующие линии близки к параллели), тогда как в других возрастных группах различие между мужчинами и женщинами выражено достаточно существенно (соответствующие линии перпендикулярны). Так, мужчины младше 18 лет характеризуются существенно меньшей кратностью покупок сырков, чем женщины младше 18 лет. Мужчины в возрасте до 18 лет имеют наименьшую кратность покупок и по сравнению со всеми другими половозрастными группами. Мужчины в возрасте 19-35 лет характеризуются наивысшей кратностью покупок сырков среди всех возрастных групп мужчин. Можно заметить, что ситуация с женщинами в двух рассматриваемых возрастных группах диаметрально противоположная. Мужчины младше 18 лет имеют наименьшую кратность покупок; женщины младше 18 лет — наивысшую. Мужчины от 19 до 35 лет имеют наивысшую кратность покупок; женщины 19-35 лет — наименьшую.

Таким образом, вы видите, что графики в дисперсионном анализе являются весьма ценным ресурсом для построения заключений и выводов. Еще одним направлением интерпретации является кластеризация респондентов на основании их средних показателей (например, кратности покупок). Так, в нашем примере на основании кратности покупок можно разделить всех респондентов на следующие целевые сегменты:

1. мужчины младше 18 лет характеризуются наименьшей кратностью покупок сырков;

2. мужчины старше 36 лет и женщины старше 19 лет характеризуются средней кратностью покупок сырков;

3. мужчины от 19 до 35 лет и женщины младше 18 лет характеризуются наивысшей кратностью покупок сырков.

В целом общая схема интерпретации графиков в дисперсионном анализе состоит из двух этапов. Сначала следует определить категории респондентов, отличающиеся и не отличающиеся друг от друга. При этом интерпретация графиков всегда происходит только по двум переменным (представленным по горизонтальной оси и в виде отдельных линий). Для установления различия следует смотреть на форму данных линий. Если две (или более) линии близки к параллели, следовательно, различия между данными категориями минимальны (незначимы). В противном случае, если линии пересекаются, следует признать различие между ними существенным (значимым).

Наиболее простым для интерпретации случаем является ситуация, в которой по горизонтальной оси располагается дихотомическая переменная (например, переменная Пол). Если линии на отрезке между двумя категориями данной переменной не пересекаются — различий нет; если пересекаются — различия есть. На рис. 3.22 представлен пример максимальных различий (линии пересекаются под прямым углом); на рис. 3.23 — минимальных (линии параллельны).

Рис. 3.22. Значимые различия между взаимодействиями факторов

Рис. 3.23. Незначимые различия между взаимодействиями факторов

Можно сформулировать следующие рекомендации по построению графиков в дисперсионном анализе.

1. Для горизонтальной оси лучше выбирать дихотомические вопросы.

2. Если дихотомических переменных нет, следует выбрать переменную с наименьшим четным количеством категорий и перекодировать данные категории в дихотомию. Для горизонтальной оси следует выбирать именно данную (уже дихотомическую) переменную. Данный способ работает далеко не всегда, ведь часто различия между взаимодействиями факторов находятся именно в тех категориях, которые будут перекодированы (сокращены).

При исследовании трехуровневых взаимодействий (ql x q2 x q3) переменную с наименьшим числом категорий (лучше дихотомическую) следует поместить в поле Separate Plots в диалоговом окне Univariate (например, ql), а для остальных двух исследуемых переменных (например, q2 и q3) — следовать вышеописанным правилам. Это будет означать, что в результате будут построены отдельные графики по каждой категории переменной ql, где будут показаны двухуровневые взаимодействия переменных q2 и q3.

В заключение настоящего раздела необходимо особо отметить, что графики взаимодействий могут эффективно применяться только при числе взаимодействий 2 (ql х q2) или 3 (ql x q2 x q3). При взаимодействиях первого уровня (ql) мы говорим уже не о взаимодействиях как таковых, а о главных эффектах (Main effects), то есть о влиянии на зависимую переменную только каждого фактора в отдельности. В таком случае различия между конкретными группами независимой переменной определяются исходя из результатов апостериорных тестов. При числе взаимодействий более трех сохраняется возможность разбиения данного взаимодействия на несколько взаимодействий второго или третьего уровней и построения затем серии графиков. Однако в этом случае интерпретация данных графиков является практически неразрешимой задачей.

<22 23 242526 27 28 >

Дата добавления: 2015-04-25; просмотров: 828;