Бинарная и мультиномиальная логистические регрессии

В настоящем разделе мы рассмотрим два основных типа логистической регрес­сии — бинарную и мультиномиальную, а также дадим общий обзор порядковой логистической регрессии. Цель статистического анализа при применении мето­дов логистической регрессии — определить вероятность того, что тот или иной респондент (на основании определенных характеристик) попадет в ту или иную целевую группу. На практике описываемые методы, согласно значениям одной или нескольких независимых переменных (факторов), позволяют классифици­ровать респондентов по двум (бинарная) или более (мультиномиальная) груп­пам, которые выражаются уровнями (вариантами ответа) какой-либо одной пе­ременной.

Например, имеются ответы респондентов на вопрос Интересно ли Вам предложение о покупке земельного участка недалеко от Москвы? с вариантами ответа Да и Нет. Тре­буется выяснить, какие факторы в наибольшей степени определяют решение по­тенциальных покупателей о приобретении земельного участка. Для этого респон­дентам задается ряд вопросов с просьбой указать, какие элементы инфраструктуры им необходимы на данном участке, какое расстояние от Москвы является для них оптимальным, каков должен быть размер данного участка, должен ли на участке быть дом и т. п. Используя в данном случае метод бинарной логистической ре­грессии, можно классифицировать всех респондентов по двум целевым группам: заинтересованные в покупке земельного участка (потенциальные покупатели) и не заинтересованные. Также для каждого респондента в выборке будет рассчитана вероятность попадания в ту или иную группу.

Различие между рассматриваемыми двумя методами логистической регрессии за­ключаются в количестве категорий и типе зависимой переменной, а также типе независимых переменных. Так, в случае бинарной логистической регрессии ис­следуется зависимость дихотомической переменной от одной или нескольких независимых переменных, имеющих любой тип шкалы. Мультиномиальная ло­гистическая регрессия является разновидностью бинарной, в которой зависимая переменная имеет более двух категорий. Независимые переменные должны отно­ситься либо к номинальной, либо к порядковой шкале.

Еще в версии SPSS 11-12 был введен новый метод логистической регрессии: по­рядковая. Он используется в том случае, когда зависимая переменная относится к порядковой шкале. Причем независимые переменные должны быть либо номи­нальными, либо порядковыми. Мультиномиальный логистический регрессионный анализ является наиболее универсальным и, в целом, способен заменить собой два других метода. Однако наиболее качественное приближение статистических мо­делей может быть достигнуто только при использовании именно трех описывае­мых методов: для каждого случая — свой. В табл. 5.1 систематизированы основные характеристики переменных, участвующих в рассматриваемых трех типах логис­тического регрессионного анализа.

 

Таблица 5.1. Основные характеристики переменных, участвующих в анализе

Бинарная логистическая регрессия
Зависимые переменные Независимые переменные
Количество Тип Количество Тип
Она Дихотомическая Любое Любой
Мультиноминальная логическая регрессия
Зависимые переменные Независимые переменные
Количество Тип Количество Тип
Одна Номинальная Порядковая Любое Номинальная Порядковая
Порядковая логистическая регрессия
Зависимые переменные Независимые переменные
Количество Тип Количество Тип
Одна Порядковая Любое Номинальная Порядковая
         

Необходимо отметить, что ранее в SPSS отсутствовала стандартная возможность проведения специализированного логистического регрессионного анализа для за­висимых переменных с порядковой шкалой. Для любых переменных с числом ка­тегорий больше двух применялся мультиномиальный регрессионный анализ. Дело в том, что недавно введенная в практику анализа порядковая логистическая ре­грессия имеет некоторые особенности, учитывающие именно специфику поряд­ковой шкалы (связанных упорядоченных категорий). Однако в настоящем посо­бии порядковая логистическая регрессия не рассматривается отдельно — в первую, очередь из-за того, что она не обладает какими-либо существенными преимуществами над мультиномиальным методом. Вы можете спокойно применять мульти­номиальную регрессию и в случае номинальной, и в случае порядковой зависимой переменной. Если вы все же решите провести порядковый логистический регрес­сионный анализ, вы без труда в нем разберетесь, так как данный процесс практи­чески не отличается от построения мультиномиальной логистической регрессии.

Далее мы рассмотрим примеры проведения статистического анализа с использо­ванием логистической регрессии отдельно для бинарной и мультиномиальной ло­гистической регрессии.

Начнем с наиболее простого случая — бинарной логистической регрессии. Пред­положим, в ходе маркетингового исследования проводится оценка востребован­ности выпускников одного из московских вузов. В анкете респондентам в числе прочих задаются три вопроса:

■ Работаете ли вы? (ql);

■ В каком году Вы окончили вуз? (q21);

■ Каков был Ваш средний балл при выпуске из вуза? (aver), а также уточняется пол опрошенных (q22).

В ходе логистического анализа мы оценим влияние независимых переменных q21, q22 и aver на зависимую переменную ql. Другими словами, мы попытаемся пред­сказать трудоустройство выпускников вуза на основании пола, года окончания вуза и среднего балла, полученного за годы обучения.

Для того чтобы задать параметры построения регрессионной модели при помощи бинарного логистического метода, воспользуемся меню Analyze ► Regression ► Binary Logistic. В открывшемся диалоговом окне Logistic Regression (рис. 5.1) выберите в левом списке всех доступных переменных зависимую (в нашем случае ql) и поме­стите ее в поле Dependent. Затем в область Covariates поместите исследуемые неза­висимые переменные (q21, q22, aver) и выберите метод их включения в регрессион­ный анализ. При числе независимых переменных больше двух следует выбрать не установленный по умолчанию метод одновременного включения всех переменных (Enter), а один из пошаговых. Наиболее часто используемым пошаговым методом является Backward:LR. Кнопка Select позволяет включить в анализ не всех респон­дентов из выборочной совокупности, а только отдельную целевую группу.

 
 

Рис. 5.1. Диалоговое окно Logistic Regression  

 


 


 
 

Кнопкой Categorical следует воспользоваться, если в качестве одной из независи­мых переменных выступает номинальная переменная с числом категорий больше двух. В данном случае в диалоговом окне Define Categorical Variables (рис. 5.2) следу­ет поместить в область Categorical Covariates такую переменную (в нашем случае таких переменных нет). Далее следует выбрать в раскрывающемся списке Contrast пункт Deviation и щелкнуть на кнопке Change. В результате из каждой номиналь­ной переменной будет создано несколько дихотомических переменных (по числу категорий исходной переменной).

Рис. 5.2. Диалоговое окно Define Categorical Variables  

 


При помощи кнопки Save в главном диалоговом окне анализа (рис. 5.3) можно за­дать создание новых переменных, содержащих значения, рассчитанные в ходе ре­грессионного анализа. Так давайте создадим две новые переменные, содержащие:

■ принадлежность к определенной группе классификации (параметр Group mem­bership);

■ вероятность попадания респондента в каждую из двух рассматриваемых групп (параметр Probabilities).

Рис. 5.3. Диалоговое окно Save New Variables  
 
 

 


Кнопка Options не предоставляет исследователю никаких важных возможностей, поэтому ее можно не использовать. После щелчка на кнопке О К в главном диалого­вом окне Logistic Regression в окне SPSS Viewer будут выведены результаты бинар­ного логистического регрессионного анализа.

Далее мы рассмотрим наиболее существенные для маркетингового анализа резуль­таты. В таблице Omnibus Tests of Model Coefficients отображаются результаты оценки

качества приближения статистической модели (рис. 5.4). Поскольку мы задали пошаговый метод, мы должны смотреть на результаты последнего шага (в нашем случае Step 2). Положительным результатом считается возрастание величины Chi-square при переходе на каждый следующий шаг (строка Step) при высоком уровне значимости (Sig. < 0,05). Качество всей модели оценивается на основании статис­тической значимости в строке Model. В нашем случае на втором шаге получена от­рицательная величина Chi-square, однако она не является значимой (Sig. = 0,913), к тому же общая значимость всей модели весьма высока (Sig. < 0,001). Поэтому построенную модель следует признать значимой и практически пригодной.

Рис. 5.4. Таблица Omnibus Tests of Model Coefficients
 
 

 


Следующая таблица Model Summary (рис. 5.5) позволяет оценить долю совокупной дисперсии, описываемой построенной моделью (величина R Square). Рекомендует­ся использовать величину Nagelkerke. В нашем случае эта величина мала (лишь 6 %). Положительным результатом можно считать величину Nagelkerke R Square, превышающую 0,50.

 
 

Рис. 5.5. Таблица Model Summary  


Далее следуют результаты классификации (таблица Classification Table, рис. 5.6), в которой реально наблюдаемые показатели принадлежности к той или иной из двух исследуемых групп сопоставляются с предсказанными на основе логистичес­кой регрессионной модели. В нашем случае из строки Overall Percentage мы видим, что построенная модель позволяет корректно классифицировать 80,4 % респон­дентов. Также можно сделать соответствующие выводы о корректности класси­фикации для каждой из двух рассматриваемых групп.

Из следующей таблицы (рис. 5.7) можно выяснить статистическую значимость не­зависимых переменных, включенных в анализ (в нашем случае q22 и aver), а также нестандартизированные регрессионные коэффициенты, являющиеся коэффициен­тами регрессионной функции. На основании этих коэффициентов (включая константу Constant) вы можете спрогнозировать принадлежность к определенной груп­пе каждого конкретного респондента в выборке. Это делается следующим образом.


 
 


 


Например, выпускник вуза получил средний балл 3,3 (aver = 3,3); это женщина (q22 = 2). В таком случае уравнение регрессии будет выглядеть следующим обра­зом:

а вероятность для рассматриваемого респондента оказаться в одной из анализиру­емых групп классификации (это всегда группа зависимой переменной, имеющая больший код, в нашем случае 2 — Не работают) будет рассчитываться по формуле:

Таким образом, женщина со средним баллом 3,3 имеет достаточно высокие шансы оказаться безработной (68 %).

Теперь рассмотрим пример проведения мультиномиальной логистической регрес­сии. В качестве исходных данных мы будем использовать три независимые пере­менные из предыдущего примера, а в качестве зависимой — переменную q24 Зара­ботная плата с пятью категориями, кодирующими интервалы зарплаты.

Откройте диалоговое окно Multinomial Logistic Regression при помощи меню Analyze ► Regression ► Multinomial Logistic (рис. 5.8). В поле для зависимой переменной поме­стите переменную q24, а в область для зависимых переменных — q21, q22 и aver.

Кнопка Model позволяет задать конкретный тип модели (полнофакторная, основ­ные эффекты или пользовательская), однако для маркетинговых исследований мы советуем ничего не менять в окне Model.

При помощи кнопки Statistics вызывается одноименное диалоговое окно (рис. 5.9). В нем следует оставить выбранные по умолчанию три параметра: Summary statistics, Likelihood ratio test и Parameter estimates, а также выбрать еще один пункт — Cell Probabilities.

 
 

Рис. 5.8. Диалоговое окно Multinomial Logistic Regression

 
 

Рис. 5.9. Диалоговое окно Statistics  

 


Кнопка Criteria не предоставляет маркетологам существенных для решения их за­дач функций, поэтому используется редко.

При помощи кнопки Save (рис. 5.10) можно задать новые переменные, содержа­щие принадлежность к определенной классификационной группе (параметр Pre­dicted category) и вероятность попадания в данные категории (параметр Predicted probabilities membership).

После щелчка на кнопке 0К в главном диалоговом окне Multinomial Logistic Regression в окне SPSS Viewer появятся результаты расчетов. Первая таблица, содержащая важные для нас сведения, — это Model Fitting Information, показанная на рис. 5.11. Высокая статистическая значимость построенной модели (Sig. < 0,001) свидетель­ствует о ее высоком качестве и пригодности для решения практических задач.

Вторая значимая таблица Pseudo R-Square предоставляет возможность оценить долю совокупной дисперсии в зависимой переменной, объясняемой выбранными для анализа независимыми переменными (по тесту Nagelkerke). В нашем случае по­строенная модель объясняет 15 % совокупной дисперсии (рис. 5.12).

Таблица Likelihood Ratio Tests (рис. 5.13) позволяет сделать выводы относительно статистической значимости каждой из зависимых переменных, входящих в по­строенную модель. В нашем случае все три исследуемые переменные оказывают весьма значимое влияние на зависимую переменную (Sig. < 0,05).

 
 

Рис. 5.10. Диалоговое окно Save  

 

 
 

Рис. 5.11. Таблица Model Fitting Information

 
 

Рис. 5.13. Таблица Likelihood Ratio Tests  
 
 

Рис. 5.12. Таблица Pseudo R-Square


 
 

Рис. 5.14. Таблица Parameter Estimates  

 


Следующая таблица, Parameter Estimates (рис. 5.14), отражает нестандартизированные регрессионные коэффициенты, на основании которых происходит построение регрессионного уравнения. Также для каждого сочетания анализируемых переменных рассчитана статистическая значимость их влияния на зависимую переменную. В дальнейшем рассчитать вероятность попадания того или иного респондента в одну из исследуемых групп зависимой переменной можно по вы­шеприведенной формуле (показана при обсуждении бинарной логистической рег­рессии).

Однако в маркетинговых исследованиях чаще всего возникает необходимость классифицировать по группам не отдельных респондентов, а целые целевые группы. Для этого служит таблица Observed and Predicted Frequencies, представ­ленная на рис. 5.15. В столбце Percentage ► Predicted показаны вероятности по­падания каждой исследуемой целевой группы респондентов в ту или иную ка­тегорию зависимой переменной. Так, например, мы видим, что 20 % мужчин, окончивших ВУЗ в 2001 г. и получивших средний балл 3,0, зарабатывают до $ 400 в месяц.



Рис. 5.15. Таблица Observed and Predicted Frequencies

 









Дата добавления: 2015-04-25; просмотров: 1229;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.023 сек.