Иерархический кластерный анализ

В статистике существует два основных типа кластерного анализа (оба представле­ны в SPSS): иерархический и осуществляемый методом k-средних. В первом случае автоматизированная статистическая процедура самостоятельно определяет опти­мальное число кластеров и ряд других параметров, необходимых для кластерного

анализа. Второй тип анализа имеет существенные ограничения по практической применимости — для него необходимо самостоятельно определять и точное количе­ство выделяемых кластеров, и начальные значения центров каждого кластера (цен­троиды), и некоторые другие статистики. При анализе методом k-средних данные проблемы решаются предварительным проведением иерархического кластерного анализа и затем на основании его результатов расчетом кластерной модели по мето­ду k-средних, что в большинстве случаев не только не упрощает, а наоборот, услож­няет работу исследователя (в особенности неподготовленного).

В целом можно сказать, что в связи с тем, что иерархический кластерный анализ весьма требователен к аппаратным ресурсам компьютера, кластерный анализ по методу k-средних введен в SPSS для обработки очень больших массивов данных, состоящих из многих тысяч наблюдений (респондентов), в условиях недостаточ­ной мощности компьютерного оборудования1. Размеры выборок, используемых в маркетинговых исследованиях, в большинстве случаев не превышают четыре ты­сячи респондентов. Практика маркетинговых исследований показывает, что именно первый тип кластерного анализа — иерархический — рекомендуется для исполь­зования во всех случаях как наиболее релевантный, универсальный и точный. Вместе с тем необходимо подчеркнуть, что при проведении кластерного анализа важным является отбор релевантных переменных. Данное замечание очень суще­ственно, так как включение в анализ нескольких или даже одной нерелевантной переменной способно привести к неудаче всей статистической процедуры.

Описание методики проведения кластерного анализа мы проведем на следующем примере из практики маркетинговых исследований.

Исходные данные:

В ходе исследования было опрошено 745 авиапассажиров, летавших одной из 22 россий­ских и зарубежных авиакомпаний. Авиапассажиров просили оценить по пятибалльной шкале — от 1 (очень плохо) до 5 (отлично) — семь параметров работы наземного персо­нала авиакомпаний в процессе регистрации пассажиров на рейс: вежливость, професси­онализм, оперативность, готовность помочь, регулирование очереди, внешний вид, работа персонала в целом.

Требуется:

Сегментировать исследуемые авиакомпании по уровню воспринимаемого авиапассажи­рами качества работы наземного персонала.

Итак, у нас есть файл данных, который состоит из семи интервальных перемен­ных, обозначающих оценки качества работы наземного персонала различных авиа­компаний (ql3-ql9), представленные в единой пятибалльной шкале. Файл данных содержит одновариантную переменную q4, указывающую выбранные респонден­тами авиакомпании (всего 22 наименования). Проведем кластерный анализ и опре­делим, на какие целевые группы можно разделить данные авиакомпании.

Иерархический кластерный анализ проводится в два этапа. Результат первого эта­па — число кластеров (целевых сегментов), на которые следует разделить иссле­дуемую выборку респондентов. Процедура кластерного анализа как таковая не

может самостоятельно определить оптимальное число кластеров. Она может только подсказать искомое число. Поскольку задача определения оптимального числа сегментов является ключевой, она обычно решается на отдельном этапе анализа. На втором этапе производится собственно кластеризация наблюдений по тому числу кластеров, которое было определено в ходе первого этапа анализа. Теперь рассмотрим эти шаги кластерного анализа по порядку.

 
 

Процедура кластерного анализа запускается при помощи меню Analyze ► Classify ► Hierarchical Cluster. В открывшемся диалоговом окне из левого списка всех имею­щихся в файле данных переменных выберите переменные, являющиеся критерия­ми сегментирования. В нашем случае их семь, и обозначают они оценки параметров работы наземного персонала ql3-ql9 (рис. 5.44). В принципе указания совокупно­сти критериев сегментирования будет вполне достаточно для выполнения перво­го этапа кластерного анализа.

Рис. 5.44. Диалоговое окно Hierarchical Cluster Analysis  

 


По умолчанию кроме таблицы с результатами формирования кластеров, на ос­новании которой мы определим их оптимальное число, SPSS выводит также специальную перевернутую гистограмму icicle, помогающую, по замыслу со­здателей программы, определить оптимальное количество кластеров; вывод ди­аграмм осуществляется кнопкой Plots (рис. 5.45). Однако если оставить дан­ный параметр установленным, мы потратим много времени на обработку даже сравнительно небольшого файла данных. Кроме icicle в окне Plots можно выб­рать более быструю линейчатую диаграмму Dendogram. Она представляет со­бой горизонтальные столбики, отражающие процесс формирования кластеров. Теоретически при небольшом (до 50-100) количестве респондентов данная диаграмма действительно помогает выбрать оптимальное решение относительно требуемого числа кластеров. Однако практически во всех примерах из марке­тинговых исследований размер выборки превышает это значение. Дендограмма становится совершенно бесполезной, так как даже при относительно неболь­шом числе наблюдений представляет собой очень длинную последовательность номеров строк исходного файла данных, соединенных между собой горизон­тальными и вертикальными линиями. Большинство учебников по SPSS содер­жат примеры кластерного анализа именно на таких искусственных, малых вы­борках. В настоящем пособии мы показываем, как наиболее эффективно работать с SPSS в практических условиях и на примере реальных маркетинго­вых исследований.

 
 

Рис. 5.45. Диалоговое окно Plots  

 


Как мы установили, для практических целей ни Icicle, ни Dendogram не пригодны. Поэтому в главном диалоговом окне Hierarchical Cluster Analysis рекомендуется не выводить диаграммы, отменив выбранный по умолчанию параметр Plots в области Display, как показано на рис. 5.44. Теперь все готово для выполнения первого этапа кластерного анализа. Запустите процедуру, щелкнув на кнопке ОК.

Через некоторое время в окне SPSS Viewer появятся результаты. Как было сказа­но выше, единственным значимым для нас итогом первого этапа анализа будет таблица Average Linkage (Between Groups), представленная на рис. 5.46. На основа­нии этой таблицы мы должны определить оптимальное число кластеров. Необхо­димо заметить, что единого универсального метода определения оптимального числа кластеров не существует. В каждом конкретном случае исследователь дол­жен сам определить это число.

Исходя из имеющегося опыта, автор предлагает следующую схему данного про­цесса. Прежде всего, попробуем применить наиболее распространенный стандарт­ный метод для определения числа кластеров. По таблице Average Linkage (Between Groups) следует определить, на каком шаге процесса формирования кластеров (ко­лонка Stage) происходит первый сравнительно большой скачок коэффициента аг­ломерации (колонка Coefficients). Данный скачок означает, что до него в кластеры объединялись наблюдения, находящиеся на достаточно малых расстояниях друг от друга (в нашем случае респонденты со схожим уровнем оценок по анализируе­мым параметрам), а начиная с этого этапа происходит объединение более далеких наблюдений.

В нашем случае коэффициенты плавно возрастают от 0 до 7,452, то есть разница между коэффициентами на шагах с первого по 728 была мала (например, между 728 и 727 шагами — 0,534). Начиная с 729 шага происходит первый существенный скачок коэффициента: с 7,452 до 10,364 (на 2,912). Шаг, на котором происходит первый скачок коэффициента, — 729. Теперь, чтобы определить оптимальное ко-

личество кластеров, необходимо вычесть полученное значение из общего числа наблюдений (размера выборки). Общий размер выборки в нашем случае состав­ляет 745 человек; следовательно, оптимальное количество кластеров составляет 745-729 = 16.


 
 

Рис. 5.46. Таблица Average Linkage (Between Groups)

 


Мы получили достаточно большое число кластеров, которое в дальнейшем будет сложно интерпретировать. Поэтому теперь следует исследовать полученные клас­теры и определить, какие из них являются значимыми, а какие нужно попытаться сократить. Данная задача решается на втором этапе кластерного анализа.

Откройте главное диалоговое окно процедуры кластерного анализа (меню Analyze ► Classify ► Hierarchical Cluster). В поле для анализируемых переменных у нас уже есть семь параметров. Щелкните на кнопке Save. Открывшееся диалоговое окно (рис. 5.47) позволяет создать в исходном файле данных новую переменную, рас­пределяющую респондентов на целевые группы. Выберите параметр Single Solution и укажите в соответствующем поле необходимое количество кластеров — 16 (опре­делено на первом этапе кластерного анализа). Щелкнув на кнопке Continue, верни­тесь в главное диалоговое окно, в котором щелкните на кнопке ОК, чтобы запустить процедуру кластерного анализа.

Прежде чем продолжить описание процесса кластерного анализа, необходимо при­вести краткое описание других параметров. Среди них есть как полезные возмож­ности, так и фактически лишние (с точки зрения практических маркетинговых исследований). Так, например, главное диалоговое окно Hierarchial Cluster Analysis содержит поле Label Cases by, в которое при желании можно поместить текстовую переменную, идентифицирующую респондентов. В нашем случае для этих целей может служить переменная q4, кодирующая выбранные респондентами авиаком­пании. На практике сложно придумать рациональное объяснение использованию поля Label Cases by, поэтому можно спокойно всегда оставлять его пустым.


 
 

Рис. 5.47. Диалоговое окно создания новой переменной  

 


Нечасто при проведении кластерного анализа используется диалоговое окно Sta­tistics, вызываемое одноименной кнопкой в главном диалоговом окне. Оно позво­ляет организовать вывод в окне SPSS Viewer таблицы Cluster Membership, в которой каждому респонденту в исходном файле данных сопоставляется номер кластера. Данная таблица при достаточно большом количестве респондентов (практически во всех примерах маркетинговых исследований) становится совершенно бесполез­ной, так как представляет собой длинную последовательность пар значений «но­мер респондента/номер кластера», в таком виде не поддающуюся интерпретации. Технически цель кластерного анализа всегда состоит в образовании в файле дан­ных дополнительной переменной, отражающей разделение респондентов на целе­вые группы (при помощи щелчка на кнопке Save в главном диалоговом окне клас­терного анализа). Эта переменная в совокупности с номерами респондентов и есть таблица Cluster Membership. Единственный практически полезный параметр в окне Statistics — вывод таблицы Average Linkage (Between Groups), однако он уже установ­лен по умолчанию. Таким образом, использование кнопки Statistics и вывод отдель­ной таблицы Cluster Membership в окне SPSS Viewer является нецелесообразным.

Про кнопку Plots уже было сказано выше: ее следует дезактивизировать, отменив параметр Plots в главном диалоговом окне кластерного анализа.

Кроме этих редко используемых возможностей процедуры кластерного анализа, SPSS предлагает и весьма полезные параметры. Среди них прежде всего кнопка Save, позволяющая создать в исходном файле данных новую переменную, распре­деляющую респондентов по кластерам. Также в главном диалоговом окне суще­ствует область для выбора объекта кластеризации: респондентов или переменных. Об этой возможности говорилось выше в разделе 5.4. В первом случае кластерный анализ используется в основном для сегментирования респондентов по некото­рым критериям; во втором цель проведения кластерного анализа аналогична фак­торному анализу: классификация (сокращение числа) переменных.

Как видно из рис. 5.44, единственной не рассмотренной возможностью кластерно­го анализа является кнопка выбора метода проведения статистической процедуры Method. Эксперименты с данным Параметром позволяют добиться большей точно­сти при определении оптимального числа кластеров. Общий вид этого диалогово­го окна с параметрами, установленными по умолчанию, представлен на рис. 5.48.


 

Рис. 5.48. Диалоговое окно Method
 
 


Первое, что устанавливается в данном окне, — это метод формирования кластеров (то есть объединения наблюдений). Среди всех возможных вариантов статисти­ческих методик, предлагаемых SPSS, следует выбирать либо установленный по умолчанию метод Between-groups linkage, либо процедуру Ward (Ward's method). Первый метод используется чаще ввиду его универсальности и относительной простоты статистической процедуры, на которой он основан. При использовании этого метода расстояние между кластерами вычисляется как среднее значение рас­стояний между всеми возможными парами наблюдений, причем в каждой итера­ции принимает участие одно наблюдение из одного кластера, а второе — из друго­го. Информация, необходимая для расчетов расстояния между наблюдениями, находится на основании всех теоретически возможных пар наблюдений. Метод Ward более сложен для понимания и используется реже. Он состоит из множества этапов и основан на усреднении значений всех переменных для каждого наблюде­ния и последующем суммировании квадратов расстояний от вычисленных сред­них до каждого наблюдения. Для решения практических задач маркетинговых ис­следований мы рекомендуем всегда использовать метод Between-groups linkage, установленный по умолчанию.

После выбора статистической процедуры кластеризации следует выбрать метод для вычисления расстояний между наблюдениями (область Measure в диалоговом окне Method). Существуют различные методы определения расстояний для трех типов переменных, участвующих в кластерном анализе (критериев сегментирова­ния). Эти переменные могут иметь интервальную (Interval), номинальную (Counts) или дихотомическую (Binary) шкалу. Дихотомическая шкала (Binary) подразуме­вает только переменные, отражающие наступление/ненаступление какого-либо события (купил/не купил, да/нет и т. д.). Другие типы дихотомических перемен­ных (например, мужчина/женщина) следует рассматривать и анализировать как номинальные (Counts).

Наиболее часто используемым методом определения расстояний для интервальных переменных является квадрат евклидова расстояния (Squared Euclidean Distance), устанавливаемый по умолчанию. Именно этот метод зарекомендовал себя в марке­тинговых исследованиях как наиболее точный и универсальный. Однако для дихотомических переменных, где наблюдения представлены только двумя значениями (например, 0 и 1), данный метод не подходит. Дело в том, что он учитывает только взаимодействия между наблюдениями типа: X = 1,Y = 0 и X = 0, Y=l (где X и Y — переменные) и не учитывает другие типы взаимодействий. Наиболее комплексной мерой расстояния, учитывающей все важные типы взаимодействий между двумя дихотомическими переменными, является метод Лямбда (Lambda). Мы рекоменду­ем применять именно данный метод ввиду его универсальности. Однако существу­ют и другие методы, например Shape, Hamann или Anderbergs's D.

При указании метода определения расстояний для дихотомических переменных в соответствующем поле необходимо указать конкретные значения, которые мо­гут принимать исследуемые дихотомические переменные: в поле Present — коди­ровку ответа Да, а в поле Absent — Нет. Названия полей присутствует и отсутствует ассоциированы с тем, что в группе методов Binary предполагается использовать только дихотомические переменные, отражающие наступление/ненаступление какого-либо события. Для двух типов переменных Interval и Binary существует не­сколько методов определения расстояния. Для переменных с номинальным типом шкалы SPSS предлагает всего два метода: (Chi-square measure) и (Phi-square measure). Мы рекомендуем использовать первый метод как наиболее распростра­ненный.

В диалоговом окне Method есть область Transform Values, в которой находится поле Standardize. Данное поле применяется в том случае, когда в кластерном анализе при­нимают участие переменные с различным типом шкалы (например, интервальные и номинальные). Для того чтобы использовать эти переменные в кластерном анализе, следует провести стандартизацию, приводящую их к единому типу шкалы — интер­вальному. Самым распространенным методом стандартизации переменных являет­ся 2-стандартизация (Zscores): все переменные приводятся к единому диапазону зна­чений от -3 до +3 и после преобразования являются интервальными.

Так как все оптимальные методы (кластеризации и определения расстояний) ус­тановлены по умолчанию, целесообразно использовать диалоговое окно Method только для указания типа анализируемых переменных, а также для указания необ­ходимости произвести 2-стандартизацию переменных.

Итак, мы описали все основные возможности, предоставляемые SPSS для прове­дения кластерного анализа. Вернемся к описанию кластерного анализа, проводи­мого с целью сегментирования авиакомпаний. Напомним, что мы остановились на шестнадцатикластерном решении и создали в исходном файле данных новую пе­ременную clul6_l, распределяющую все анализируемые авиакомпании по кластерам.

Чтобы установить, насколько верно мы определили оптимальное число класте­ров, построим линейное распределение переменной clul6_l (меню Analyze ► Des­criptive Statistics ► Frequencies). Как видно на рис. 5.49, в кластерах с номерами 5-16 число респондентов составляет от 1 до 7. Наряду с вышеописанным универсаль­ным методом определения оптимального количества кластеров (на основании раз­ности между общим числом респондентов и первым скачком коэффициента агломе­рации) существует также дополнительная рекомендация: размер кластеров должен быть статистически значимым и практически приемлемым. При нашем размере выборки такое критическое значение можно установить хотя бы на уровне 10. Мы видим, что под данное условие попадают лишь кластеры с номерами 1-4. Поэтому

теперь необходимо пересчитать процедуру кластерного анализа с выводом четы-рехкластерного решения (будет создана новая переменная du4_l).


 

Рис. 5.49. Линейное распределение для 16-кластерного решения
 
 


Построив линейное распределение по вновь созданной переменной du4_l, мы уви­дим, что только в двух кластерах (1 и 2) число респондентов является практически значимым. Нам необходимо снова перестроить кластерную модель — теперь для двухкластерного решения. После этого построим распределение по переменной du2_l (рис. 5.50). Как вы видите из таблицы, двухкластерное решение имеет статистичес­ки и практически значимое число респондентов в каждом из двух сформированных кластеров: в кластере 1 — 695 респондентов; в кластере 2 — 40. Итак, мы определили оптимальное число кластеров для нашей задачи и провели собственно сегментиро­вание респондентов по семи избранным критериям. Теперь можно считать основ­ную цель нашей задачи достигнутой и приступать к завершающему этапу кластер­ного анализа — интерпретации полученных целевых групп (сегментов).

 
 

Рис. 5.50. Численность кластеров (решение для 2 кластеров)  

 


Полученное решение несколько отличается от тех, которые вы, может быть, виде­ли в учебных пособиях по SPSS. Даже в наиболее практически ориентированных учебниках приведены искусственные примеры, где в результате кластеризации получаются идеальные целевые группы респондентов. В некоторых случаях (5) авторы даже прямо указывают на искусственное происхождение примеров. В на­стоящем пособии мы применим в качестве иллюстрации действия кластерного анализа реальный пример из практического маркетингового исследования, не от­личающийся идеальными пропорциями. Это позволит нам показать наиболее рас­пространенные трудности проведения кластерного анализа, а также оптимальные методы их устранения.

Перед тем как приступить к интерпретации полученных кластеров, давайте под­ведем итоги. У нас получилась следующая схема определения оптимального чис­ла кластеров.

■ На этапе 1 мы определяем количество кластеров на основании математическо­го метода, основанного на коэффициенте агломерации.

■ На этапе 2 мы проводим кластеризацию респондентов по полученному числу кластеров и затем строим линейное распределение по образованной новой пе­ременной (clul6_l). Здесь также следует определить, сколько кластеров состо­ят из статистически значимого количества респондентов. В общем случае реко­мендуется устанавливать минимально значимую численность кластеров на уровне не менее 10 респондентов.

■ Если все кластеры удовлетворяют данному критерию, переходим к завершаю­щему этапу кластерного анализа: интерпретации кластеров. Если есть класте­ры с незначимым числом составляющих их наблюдений, устанавливаем, сколько кластеров состоят из значимого количества респондентов.

■ Пересчитываем процедуру кластерного анализа, указав в диалоговом окне Save число кластеров, состоящих из значимого количества наблюдений.

■ Строим линейное распределение по новой переменной.

Такая последовательность действий повторяется до тех пор, пока не будет найде­но решение, в котором все кластеры будут состоять из статистически значимого числа респондентов. После этого можно переходить к завершающему этапу клас­терного анализа — интерпретации кластеров.

Необходимо особо отметить, что критерий практической и статистической значи­мости численности кластеров не является единственным критерием, по которому можно определить оптимальное число кластеров. Исследователь может самостоя­тельно, на основании имеющегося у него опыта предложить число кластеров (усло­вие значимости должно удовлетворяться). Другим вариантом является довольно распространенная ситуация, когда в целях исследования заранее ставится усло­вие сегментировать респондентов по заданному числу целевых групп. В этом слу­чае необходимо просто один раз провести иерархический кластерный анализ с со­хранением требуемого числа кластеров и затем пытаться интерпретировать то, что получится.

Для того чтобы описать полученные целевые сегменты, следует воспользоваться процедурой сравнения средних значений исследуемых переменных (кластерных центроидов). Мы сравним средние значения семи рассматриваемых критериев сег­ментирования в каждом из двух полученных кластеров.

Процедура сравнения средних значений вызывается при помощи меню Analyze ► Compare Means ► Means. В открывшемся диалоговом окне (рис. 5.51) из левого спис­ка выберите семь переменных, избранных в качестве критериев сегментирования (ql3-ql9), и перенесите их в поле для зависимых переменных Dependent List. Затем переменную сШ2_1, отражающую разделение респондентов на кластеры при оконча­тельном (двухкластерном) решении задачи, переместите из левого списка в поле для независимых переменных Independent List. После этого щелкните на кнопке Options.


 

Рис. 5.51. Диалоговое окно Means
 
 


 
 

Откроется диалоговое окно Options, выберите в нем необходимые статистики для сравнения кластеров (рис. 5.52). Для этого в поле Cell Statistics оставьте только вывод средних значений Mean, удалив из него другие установленные по умолчанию ста­тистики. Закройте диалоговое окно Options щелчком на кнопке Continue. Наконец, из главного диалогового окна Means запустите процедуру сравнения средних зна­чений (кнопка ОК).

Рис. 5.52. Диалоговое окно Options  

 


В открывшемся окне SPSS Viewer появятся результаты работы статистичес­кой процедуры сравнения средних значений. Нас интересует таблица Report (рис. 5.53). Из нее можно увидеть, на каком основании SPSS разделила респон­дентов на два кластера. Таким критерием в нашем случае служит уровень оце­нок по анализируемым параметрам. Кластер 1 состоит из респондентов, для которых средние оценки по всем критериям сегментирования находятся на срав­нительно высоком уровне (4,40 балла и выше). Кластер 2 включает респонден­тов, оценивших рассматриваемые критерии сегментирования достаточно низ­ко (3,35 балла и ниже). Таким образом, можно сделать вывод о том, что 93,3 % респондентов, сформировавшие кластер 1, оценили анализируемые авиаком­пании по всем параметрам в целом хорошо; 5,4 % — достаточно низко; 1,3 % — затруднились ответить (см. рис. 5.50). Из рис. 5.53 можно также сделать вывод о том, какой уровень оценок для каждого из рассматриваемых параметров в от­дельности является высоким, а какой — низким (причем данный вывод будет сделан со стороны респондентов, что позволяет добиться высокой точности классификации). Из таблицы Report можно видеть, что для переменной Регули­рование очереди высоким считается уровень средней оценки 4,40, а для пара­метра Внешний вид — 4.72.



Рис. 5.53. Сравнение средних для двух выделенных кластеров

 


Может оказаться, что в аналогичном случае по параметру X высокой оценкой счи­тается 4,5, а по параметру Y — только 3,9. Это не будет ошибкой кластеризации, а напротив, позволит сделать важный вывод относительно значимости для респон­дентов рассматриваемых параметров. Так, для параметра Y уже 3,9 балла является хорошей оценкой, тогда как к параметру X респонденты предъявляют более стро­гие требования.

Мы идентифицировали два значимых кластера, различающиеся по уровню сред­них оценок по критериям сегментирования. Теперь можно присвоить метки полу­ченным кластерам: для 1 — Авиакомпании, удовлетворяющие требованиям респонден­тов (по семи анализируемым критериям); для 2 — Авиакомпании, не удовлетворяющие требованиям респондентов. Теперь можно посмотреть, какие конкретно авиакомпа­нии (закодированные в переменной q4) удовлетворяют требованиям респонден­тов, а какие — нет по критериям сегментирования. Для этого следует построить перекрестное распределение переменной q4 (анализируемые авиакомпании) в за­висимости от кластеризующей переменной clu2_l. Результаты такого перекрест­ного анализа представлены на рис. 5.54.

Рис. 5.54. Членство авиакомпаний в кластерах  
 
 

По этой таблице можно сделать следующие выводы относительно членства иссле­дуемых авиакомпаний в выделенных целевых сегментах.


1. Авиакомпании, полностью удовлетворяющие требованиям всех клиентов по параметру работы наземного персонала (входят только в один первый клас­тер):

■ Внуковские авиалинии;

■ American Airlines;

■ Continental;

■ Delta Airlines;

■ Air France;

■ Alitalia;

■ Austrian Airlines;

■ British Airways;

■ Swiss Air;

■ KLM;

■ Lufthansa;

■ SAS;

■ Korean Airlines;

■ Japan Airlines.

2. Авиакомпании, удовлетворяющие требованиям большинства своих клиентов по параметру работы наземного персонала (большая часть респондентов, лета­ющих данными авиакомпаниями, удовлетворены работой наземного персонала):

■ Трансаэро.

3. Авиакомпании, не удовлетворяющие требованиям большинства своих клиен­тов по параметру работы наземного персонала (большая часть респондентов, летающих данными авиакомпаниями, не удовлетворены работой наземного пер­сонала):

■ Домодедовские авиалинии;

■ Пулково;

■ Сибирь;

■ Уральские авиалинии;

■ Самарские авиалинии;

■ KrasAir;

■ Finnair.

Таким образом, получено три целевых сегмента авиакомпаний по уровню средних оценок, характеризующиеся различной степенью удовлетворенности респонден­тов работой наземного персонала:

1. наиболее привлекательные для пассажиров авиакомпании по уровню работы наземного персонала (14);

2. скорее привлекательные авиакомпании (1);

3. скорее непривлекательные авиакомпании (7).

Мы успешно завершили все этапы кластерного анализа и сегментировали авиа­компании по семи выделенным критериям.

Теперь приведем описание методики кластерного анализа в паре с факторным. Используем условие задачи из раздела 5.2.1 (факторный анализ). Как уже было сказано, в задачах сегментирования при большом числе переменных целесообраз­но предварять кластерный анализ факторным. Это делается для сокращения ко­личества критериев сегментирования до наиболее значимых. В нашем случае в исходном файле данных у нас есть 24 переменные. В результате факторного ана­лиза нам удалось сократить их число до 5. Теперь это число факторов может эф­фективно применяться для кластерного анализа, а сами факторы — использовать­ся в качестве критериев сегментирования.

Если перед нами стоит задача сегментировать респондентов по их оценке различ­ных аспектов текущей конкурентной позиции авиакомпании X, можно провести иерархический кластерный анализ по выделенным пяти критериям (переменные nfacl_l-nfac5_l). В нашем случае переменные оценивались по разным шкалам. Например, оценка 1 для утверждения Я бы не хотел, чтобы авиакомпания менялась и такая же оценка утверждению Изменения в авиакомпании будут позитивным момен­том диаметрально противоположны по смыслу. В первом случае 1 балл (совершен­но не согласен) означает, что респондент приветствует изменения в авиакомпании; во втором случае оценка в 1 балл свидетельствует о том, что респондент отвергает изменения в авиакомпании. При интерпретации кластеров у нас неизбежно воз­никнут трудности, так как такие противоположные по смыслу переменные могут

попасть в один и тот же фактор. Таким образом, для целей сегментирования реко­мендуется сначала привести в соответствие шкалы исследуемых переменных, а за­тем пересчитать факторную модель. И уже далее проводить кластерный анализ над полученными в результате факторного анализа переменными-факторами. Мы не будем снова подробно описывать процедуры факторного и кластерного анализа (это было сделано выше в соответствующих разделах). Отметим лишь, что при такой методике в результате у нас получилось три целевые группы авиапассажи­ров, различающихся по уровню оценок выделенным факторам (то есть группам переменных): низшая, средняя и высшая.

Весьма полезным применением кластерного анализа является разделение на груп­пы частотных таблиц. Предположим, у нас есть линейное распределение ответов на вопрос Какие марки антивирусов установлены в Вашей организации?. Для форми­рования выводов по данному распределению необходимо разделить марки анти­вирусов на несколько групп (обычно 2-3). Чтобы разделить все марки на три группы (наиболее популярные марки, средняя популярность и непопулярные марки), лучше всего воспользоваться кластерным анализом, хотя, как правило, исследователи разделяют элементы частотных таблиц на глаз, основываясь на субъективных соображениях. В противоположность такому подходу кластерный анализ позволяет научно обосновать выполненную группировку. Для этого сле­дует ввести значения каждого параметра в SPSS (эти значения целесообразно выражать в процентах) и затем выполнить кластерный анализ для этих данных. Сохранив кластерное решение для необходимого количества групп (в нашем слу­чае 3) в виде новой переменной, мы получим статистически обоснованную груп­пировку.

Заключительную часть этого раздела мы посвятим описанию применения клас­терного анализа для классификации переменных и сравнения его результатов с результатами факторного анализа, проведенного в разделе 5.2.1. Для этого мы вновь воспользуемся условием задачи про оценку текущей позиции авиакомпа­нии X на рынке авиаперевозок. Методика проведения кластерного анализа прак­тически полностью повторяет описанную выше (когда сегментировались респон­денты).

Итак, в исходном файле данных у нас есть 24 переменные, описывающие отноше­ние респондентов к различным аспектам текущей конкурентной позиции авиаком­пании X. Откройте главное диалоговое окно Hierarchical Cluster Analysis и поместите 24 переменные (ql-q24) в поле Variable(s), рис. 5.55. В области Cluster укажите, что вы классифицируете переменные (отметьте параметр Variables). Вы увидите, что кнопка Save стала недоступна — в отличие от факторного, в кластерном анализе нельзя сохранить факторные рейтинги для всех респондентов. Откажитесь от вы­вода диаграмм, дезактивизировав параметр Plots. На первом этапе вам не нужны другие параметры, поэтому просто щелкните на кнопке О К, чтобы запустить про­цедуру кластерного анализа.

В окне SPSS Viewer появилась таблица Agglomeration Schedule, по которой мы оп­ределили оптимальное число кластеров описанным выше методом (рис. 5.56). Пер­вый скачок коэффициента агломерации наблюдается на 20 шаге (с 18834,000 до 21980,967). Исходя из общего числа анализируемых переменных, равного 24, можно вычислить оптимальное число кластеров: 24 - 20 = 4.


Рис. 5.55. Диалоговое окно Hierarchical Cluster Analysis при кластеризации переменных

 
 

Рис. 5.56. Таблица Agglomeration Schedule  

 


При классификации переменных практически и статистически значимым является кластер, состоящий всего из одной переменной. Поэтому, поскольку мы получили приемлемое число кластеров математическим методом, проведение дальнейших проверок не требуется. Вместо этого снова откройте главное диалоговое окно клас­терного анализа (все данные, использованные на предыдущем этапе, сохранились) и щелкните на кнопке Statistics, чтобы организовать вывод классификационной таб­лицы. Вы увидите одноименное диалоговое окно, где необходимо указать число кластеров, на которое необходимо разделить 24 переменные (рис. 5.57). Для этого выбе­рите параметр Single solution и в соответствующем поле укажите требуемое число кластеров: 4. Теперь закройте диалоговое окно Statistics щелчком на кнопке Continue и из главного окна кластерного анализа запустите

 
 

процедуру на выполнение.

Рис. 5.57. Диалоговое окно Statistics

 


В результате в окне SPSS Viewer появится таблица Cluster Membership, распределя­ющая анализируемые переменные на четыре кластера (рис. 5.58).

Рис. 5.58. Таблица Cluster Membership  
 
 

 


По данной таблице можно отнести каждую рассматриваемую переменную в опре­деленный кластер следующим образом.








Дата добавления: 2015-04-25; просмотров: 1125;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.048 сек.