Дискриминантный анализ

Дискриминантный анализ является более универсальной статистической про­цедурой по сравнению с рассмотренными выше методами логистической регрес­сии. Основным результатом проведения дискриминантного анализа являются (также как для логистической регрессии) рассчитанные вероятности попадания каждого респондента в ту или иную группу, а также переменная, кодирующая при­надлежность их к данным группам. Наряду с этой информацией по результатам дискриминантного анализа можно составить уравнение дискриминантной функции.

В табл. 5.2 приведены основные характеристики переменных, участвующих в дис-криминантном анализе.

 

Таблица 5.2. Основные характеристики переменных, участвующих в анализе

Дискриминантный анализ
Зависимые переменные Независимые переменные
Количество Тип Количество Тип
Одна Номинальная Порядковая Любое Любой

 

При выборе зависимой переменной для дискриминантного анализа следует помнить, что увеличение числа категорий в ней практически всегда влечет уменьшение каче­ства статистической модели, то есть ее точности и надежности. Поэтому рекоменду­ется использовать в качестве зависимых переменные с малым количеством катего­рий (или преобразовывать существующие переменные к данному виду).

Для описания процесса проведения дискриминантного анализа применим следу­ющие исходные данные. Проводится маркетинговое исследование потенциально­го спроса на услуги нового развлекательного комплекса. Респонденты в ходе оп­роса отвечают на вопрос Будете ли Вы посещать новый комплекс? (q26) с вариантами ответа Да и Нет. В качестве независимых переменных, характеризующих респон­дентов, выделены:

■ возраст (ql8);

■ род занятий (ql9);

■ среднемесячный доход (q20);

■ количество членов семьи (q21);

■ среднемесячные расходы на досуг (q22);

■ пол (q23).

В результате дискриминантного анализа мы разделим респондентов на посетите­лей и не посетителей нового центра на основании выделенных социально-демо­графических характеристик опрошенных.

 
 

Откройте диалоговое окно Discriminant Analysis при помощи меню Analyze ► Classify ► Discriminant (рис. 5.16). Поместите переменную q26 в поле для зависимых перемен­ных Grouping Variable, а анализируемые независимые переменные — в область In­dependents. Выберите пошаговый метод ввода независимых переменных в модель (параметр Use stepwise method).

Рис. 5.16. Диалоговое окно Discriminant Analysis

 


Далее щелкните на кнопке Define Range для определения границ изменения зави­симой переменной q26 (рис. 5.17). В нашем случае минимальным значением (Mi­nimum) является 1, а максимальным (Maximum) — 2.

При помощи диалогового окна Statistics, активизируемого одноименной кнопкой, следует задать вывод результатов одномерного дисперсионного анализа (параметр

 
 

Univariate ANOVA), теста Box (параметр Box's M), а также нестандартизированых ко­эффициентов регрессии (параметр Unstandardized) (рис. 5.18).

Рис. 5.17. Диалоговое окно Define Range  

 
 

Рис. 5.18. Диалоговое окно Statistics

 


В следующем диалоговом окне, Stepwise Method, вызываемом при помощи кнопки Method, следует выбрать параметр Use probability of F (рис. 5.19). Активизация дан­ного параметра позволяет проводить введение переменных в регрессионную мо­дель более гибко по сравнению с абсолютным значением F-статистики (параметр, выбранный по умолчанию).

В следующем диалоговом окне, Classification, нас интересует только один параметр — Summary Table (рис. 5.20),

Наконец, при помощи кнопки Save можно создать в исходном файле данных но­вые переменные, содержащие для каждого респондента в выборке прогнозируе­мую принадлежность к группе (параметр Predicted group membership) и вероятность попадания каждого респондента в данные группы (параметр Probabilities of group membership; см. рис. 5.21).

После выполнения вышеописанных шагов щелкните на кнопке 0К, чтобы запус­тить программу дискриминантного анализа на исполнение. После окончания рас­четов в окне SPSS Viewer будут выведены результаты расчетов.

Первой важной для нас таблицей является Tests of Equality of Group Means (рис. 5.22). Она показывает, насколько значимо выбранные независимые переменные разде­ляют выборочную совокупность респондентов на исследуемые группы. В нашем случае получены весьма значимые результаты для всех исследуемых переменных (Sig. < 0,05). Это свидетельствует о том, что на их основании исследуемые группы зависимой переменной существенно различаются.

 
 

Следующая таблица, Test Results, показывает результаты теста Box на значимость различия между категориями исследуемой зависимой переменной (рис. 5.23). В на­шем случае данный тест показывает весьма высокую вероятность того, что данные различия являются статистически значимыми (Sig. < 0,001).

 
 

 


 


 
 

Рис. 5.21. Диалоговое окно Save
 
 

Рис. 5.22. Таблица Tests of Equality of Group Means  

 

 
 

Рис. 5.23. Таблица Test Results

 


Таблица Variables in the Analysis показывает, какие независимые переменные оказа­лись включенными в итоговую дискриминантную модель на последнем шаге ана­лиза (напомним, что мы выбрали пошаговый метод включения переменных в мо­дель). В нашем случае последним шагом является шаг 4. На четвертом шаге у нас остались четыре независимые переменные из шести (рис. 5.24).


 

 
 

Рис. 5.24. Таблица Variables in the Analysis


Таблица Eigenvalues позволяет оценить качество разделения респондентов на за­данные группы зависимой переменной (рис. 5.25). Соответствующий вывод можно сделать исходя из корреляционного коэффициента (столбец Canonical Correlation). В нашем случае данный коэффициент примерно равен 0,5, что свидетельствует о неудовлетворительном результате.

Еще одним важным показателем в этой таблице является собственное значение дискриминантной функции (столбец Eigenvalue). В общем случае большие значе­ния Eigenvalues указывают на высокую точность подобранной дискриминантной функции. В нашем случае рассматриваемое собственное значение весьма мало, что является негативным фактом. Необходимо отметить, что при наличии у зависи­мой переменной более двух категорий в ходе дискриминантного анализа строится несколько дискриминантных функций (по количеству категорий зависимой пере­менной минус 1).

Следующая таблица (рис. 5.26) также позволяет оценить качество приближения дискриминантной модели. В нашем случае статистическая значимость (Sig. < 0,001)

 
 

указывает на существенные различия между средними значениями дискриминантных функций в двух исследуемых группах зависимой переменной.

Рис. 5.25. Таблица Eigenvalues  

 
 

Рис. 5.26. Таблица Wilks' Lambda  

 

 

Следующие две таблицы (рис. 5.27 и 5.28) позволяют оценить, насколько отдельные независимые переменные, применяемые в дискриминантной функции, коррели­руют с ее стандартизированными коэффициентами. В первой таблице приводятся стандартизированные коэффициенты, а во второй — корреляционные коэффици­енты. При помощи стандартизированных коэффициентов, кроме всего прочего, можно непосредственно сравнивать относительный вклад каждой независимой переменной в различение двух исследуемых групп. Например, мы видим, что воз­раст респондентов влияет на их желание/нежелание посещать новый центр в 1,3 ра­за сильнее, чем род занятий.

Далее следуют коэффициенты дискриминантной функции (нестандартизирован-ные), на основании которых и строится дискриминантное уравнение, по форме похожее на уравнение регрессии (рис. 5.29). Это просто множители при соответ­ствующих переменных. С учетом константы уравнение дискриминантной функ­ции имеет вид:

 

Z=-0,845 + 0,207 × Возраст + 0,198 × Род_занятий - 0,289 × Кол-во_членов_семьи - 0,285 × Среднемесячные_расходы_на_досуг

 

Теперь на основании данного уравнения молено рассчитать вероятность, с которой та или иная социально-демографическая целевая группа респондентов будет по­сещать новый центр. Подставив в дискриминантное уравнение соответствующие значения, можно сделать вывод о том, что студенты в возрасте 20 лет, проживаю­щие одни и расходующие на свой досуг $ 50 в месяц, скорее всего, будут посещать новый развлекательный центр (вероятность 79 %)'.

Таблица, представленная на рис. 5.30, показывает средние значения дискриминант­ной функции в каждой анализируемой группе зависимой переменной.

 
 

 
 

 


 

Рис. 5.29. Таблица Canonical Discriminant Function Coefficients
 
 

 

 
 

Рис. 5.30. Таблица Functions at Group Centroids

 

 


 
 

Завершает вывод результатов дискриминантного анализа таблица Classification Results, в последней строке которой содержится информация о точности построен­ной модели (рис. 5.31). В нашем случае мы видим, что 77,7 % респондентов были корректно отнесены к одной из двух исследуемых групп (77,7% of original grouped cases correctly classified). Результаты оценки корректности классификации варьи­руются в пределах от 50 % до 100 %, поэтому полученный нами результат — при­мерно 78 % — можно считать удовлетворительным.

Рис. 5.31. Таблица Classification Results  

 









Дата добавления: 2015-04-25; просмотров: 871;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.014 сек.