Дискриминация при числе совокупностей большем двух

 

7.8 Линейная дискриминантная функция Фишера предполагает, что имеется только две совокупности, к которым могут относиться испытуемое наблюдение или группа наблю-дений. Это обстоятельство сильно ограничивает ее применение, так как никогда не гаран-тировано, что мы не имеем дело с большим чем два антропологическими вариантами, к которым могут относиться дискриминируемые наблюдения. Поэтому, необходим более общий подход к решению задачи дискриминации, который предполагает возможность отнесения некоторых наблюдений к нескольким (k) совокупностям w1, w2, w3, ..., wk.

Он может быть построен на основе преобразования линейной дискриминантной функ-ции Фишера. Обычное решающее правило (7.19) основано на сопоставлении полу-ченного значения Y c критическим уровнем дискриминации Yo. Его можно также запи-сать в развернутом виде. Так, наблюдение со значением дискриминантной функции Y от-носится к w1, если Y < Yo или Y - Yo < 0. То же самое в развернутом виде записывается как

X' S-1(M2 - M1) - (M2 - M1) ' S-1(M2 + M1) < 0.

Проводя несложные преобразования, можно получить это же условие в виде

 

- 174 -

1 1

X' S-1M2 - M2' S-1M2 < X' S-1M1 - M1' S-1M1 .

2 2

Аналогичным образом, наблюдение со значением Y относится к совокупности w2, если Y ³ Yo или Y - Yo . ³ 0. Записывая это выражение в развернутом виде и проводя необхо-димые преобразования, можно получить это условие как

1 1

X' S-1M2 - M2' S-1M2 ³ X' S-1M1 - M1' S-1M1 .

2 2

Нетрудно видеть, что значения M1' S-1M1 и M2' S-1M2 определяются только векторами средних M1 и M2 исходных признаков и ковариационной матрицей S. Поэтому, они являются константами, а от вектора индивидуальных значений признаков X зависят только члены X' S-1M1 и X' S-1M2.

Введем следующие обозначения. Пусть u1 есть дискриминантная функция, определя-ющая принадлежность изучаемого наблюдения к совокупности w1, и пусть она находится по формуле

u1 = X' S-1M1 - М1' S-1M1 = a1'X - ao1 . (7.27)

Здесь набор коэффициентов a1 включает a11, a12, a13, ..., a1m и находится из a1 = S-1M1, а константа ao1 = М1' S-1M1 /2. Аналогичным образом, пусть u2 есть дискриминантная функция, определяющая принадлежность к совокупности w2. Она находится по аналогичному выражению

u2 = X' S-1M2 - М2' S-1M2 = a2'X - ao2 . (7.28)

где a2 = S-1M2, а константа ao2 = М2' S-1M2 /2. Тогда условием отнесения наблюдения к w1 будет выполнение неравенства u1 ³ u2, а отнесение этого наблюдения к w2 должно проводиться при u1 < u2.

Итак, на основе линейной дискриминантной функции Фишера Y можно получить сис-тему двух других дискриминантных функций u1 и u2, по соотношению значений которых можно классифицировать наблюдения. На первый взгляд последний результат может показаться излишне громоздким. Однако, он легко обобщается на случай k совокупностей w1, w2, w3, ..., wk.

 

7.9 Пусть мы имеем для k совокупностей обучающие выборки c объемами Ni, в каждой из которых получены вектор средних Mi и ковариационная матрица Si для набора m исходных признаков X. Пусть также ковариационные матрицы Si различаются слабо, и на их основе можно получить единую оценку

N1S1 + N2S2 + ... + NkSk

S = .

N1 + N2 + ... + Nk

Тогда для каждой совокупности wi можно получить дискриминантную функцию

ui = ai' X- aoi , (7.29)

 

где ai = S-1Mi, а константа aoi = Mi'S-1Mi / 2. Система этих k дискриминантных функций

u1 = a1'X - ao1 = a11X1 + a12X2 + ... + a1mXm - ao1

u2 = a2'X - ao2 = a21X1 + a22X2 + ... + a2mXm - ao2

... ... ... … … … … …

uk = ak'X - aok = ak1X1 + ak2X2 + ... + akmXm - aok

позволит определить принадлежность любого наблюдения с вектором значений призна-ков Xj. Для этого по нему следует вычислить величины всех дискриминантных функций u1j, u2j, ..., ukj, и выбрав из них максимальную величину - uij = max, принять решение об отнесении рассматриваемого наблюдения к i-й совокупности wi.

Учет априорных вероятностей P1, P2, ..., Pk модифицирует формулу (7.29) в виде

ui = ai'X- aoi + ln Pi .

Если можно считать, что эти вероятности равны P1 = P2 = ... = Pk, тогда члены ln Pi также будут одинаковы, и их можно будет опустить, так как их присутствие во всех дискриминантных функциях не скажется на результатах определения максимальной величины uij.

Очевидно, что описанный подход может применяться и для случая дискриминации в две совокупности наблюдений, что позволяет использовать единые компьютерные прог-раммы для разного числа k, в том числе и для k = 2.

 

7.10 Линейной дискриминантной функции Фишера соответствовала величина рас-стояния Махаланобиса Dm2. При дискриминантном анализе k совокупностей может быть найдено (k - 1)k/2 значений таких расстояний для каждого попарного сочетания выборок. Все эти значения образуют симметрическую матрицу расстояний

0 Dm122 Dm132 ... Dm1k2

Dm122 0 Dm232 ... Dm2k2

Dm = Dm132 Dm232 0 ... Dm3k2 . (7.30)

... ... ... ... ...

Dm1k2 Dm2k2 Dm3k2 ... 0

По значениям Dmij2 расстояния Махаланобиса для i-й и j-й выборки можно определить значение T2 - статистики Хотеллинга, которое в соответствии с формулой (2.3) равно

N1N2

T2 = Dmij2 .

N1 + N2

На основе этого критерия проверки статистических гипотез о равенстве двух векторов средних с использованием формулы (2.5) можно проверить достоверность различий наборов средних для i-й и j-й выборок.

Иногда используется так называемое обобщенное расстояние Махаланобиса

k

Dmo2 = S Ni (Mi - Mo)'S-1(Mi - Mo) , (7.31)

i = 1

где вектор Mo включает общие средние величины исходных признаков, найденные по всем выборкам

N1M1 + N2M2 + ... + NkMk

Mo = .

N1 + N2 + ... + Nk

Обобщенное расстояние Махаланобиса есть, таким образом, сумма аналогичных рассто-яний для центра каждой выборки от общего центра всех выборок.

Кроме значений рас-стояния Махаланобиса Dm2, найденного по центральным точкам, для каждой пары вы-борок, в дискриминантном анализе часто вычисляются такие расстояния для каждого рассматриваемого j-го наблюдения по отношению к центрам всех этих k выборок Dmj12, Dmj22, Dmj32, ..., Dmjk2. Эти расстояния находятся в соответствии с разделом 1.9 по формуле Dmji2 = (Xj- Mi)'S-1(Xi - Mi) , где Xj - индивидуальный вектор значений признаков, Mi – век-тор средних в i-й выборке. Величина Dmji2 для j-го наблюдения по отношению к вектору средних i-й выборки выражает в численном виде геометрическое расстояние в m-мерном пространстве исходных признаков от центра многомерного корреляционного эллипсои-да для i-й группы наблюдений до точки, соответствующей этому наблюдению. По зна-чениям Dmji2 в соответствии с разделами 1.9 и 2.2 можно оценить вероятность PDji того, что j-е наблюдение относится к i-й совокупности. Эти вероятности называются апостери-орными. Очевидно, что наблюдение должно относиться к той группе наблюдений, с которой было найдено наименьшее расстояние Махаланобиса Dmji2 и соответствующая ему наибольшая апостериорная вероятность PDji. Разумеется, это отнесение совпадает с аналогичным результатом, полученным при рассмотрении значений дискриминантных функций. Иными словами, если для некоторого j-го наблюдения найдена наибольшая величина дискриминантной функции uji, по отношению к i-й группе наблюдений, то наименьшее Dmji2 и наибольшее PDji будут найдены именно для этой i-й группы wi. Большинство компьютерных пакетов программ при желании вычисляют значения индивидуальных расстояний Махаланобиса Dmji2 и апостериорных вероятностей PDji для каждого рассматриваемого в дискриминантном анализе наблюдения по отношению к каждой выборке. Эти результаты записываются в специальный файл.

 

7.11 Работоспособность каждого решающего дискриминантного правила определяется вероятностью ошибок дискриминации, которые при его использовании можно совер-шить. Для линейной дискриминантной функции Фишера эти вероятности e1 и e2 оценива-лись в аналитическом виде в соответствии со свойствами нормального распределения. В случае применения системы k дискриминантных функций, каждая из которых оценивает возможность отнесения наблюдения по отношению к одной из k групп, работоспособ-ность этой системы оцениваетсяпри помощи так называемой классификационной табли-цы, которая получается по результатам дискриминантного анализа.

Каждая строка этой таблицы содержит данные по i-й выборке. Здесь обычно приводи-тся ее объем (Ni) и количества наблюдений, которые были по результатам дискриминантного анализа расклассифицированы либо как принадлежащие к этой группе наблюде-ний (nii), либо - как относящиеся к другим группам наблюдений (nij, при i ¹ j). Обычно эта таблица имеет следующий вид

 

Группы ... k Ni
n11 n12 n13... n1k N1
n21 n22 n23.. n2k N2
... ... ... ... ... ... ...
k nk1 nk2 nk3 nkk Nk

- 177 -

Очевидно, что по классификационной таблице можно найти долю правильно отнесен-ных наблюдений - nii/Ni, тогда как доля ошибочных отнесений может быть найдена в виде

nii

Pei = 1 - . (7.32)

Ni

Последние значения являются эмпирическими оценками вероятности ошибки ei с которой наблюдения, в действительности принадлежащие к i-й группе наблюдений, расцениваются как не относящиеся к ней. Кроме этих долей ошибочных диагнозов Pei может быть най-дена усредненная оценка доли неправильных диагнозов принадлежности наблюдений ко всем k их группам

n11 + n22 + ... + nkk

Pe = 1 - . (7.33)

N1 + N2 + ... + Nk

В числителе отношения стоит сумма числа правильных диагнозов для всех строк клас-сификационной таблицы, в знаменателе - суммарное количество наблюдений.

Для вычисления значений nij, стоящих в ячейках классификационных таблиц, может использоваться несколько методов. Простейший из них заключается в том, что по всем N = N1 + N2 + ... + Nk данным производится построение дискриминантных функций u1, u2, ..., uk. Затем с использованием этих функций по каждому из этих же наблюдений про-изводится диагноз принадлежности к той или иной группе и отмечается его правильность или ошибочность. В результате второго цикла вычислений заполняется классификацион-ная таблица. Этот подход дает смещенные результаты.

Другой метод основан на том, что все данные делятся на две примерно равные час-ти. Первая их половина используется для получения дискриминантных функций, вторая - для заполнения классификационной таблицы. Этот подход дает точные результаты, но требует вдвое большего числа наблюдений по сравнению с первым.

Третий подход основан на так называемом скользящем экзамене. В соответствии с ним все вычисления проводятся N раз, где N суммарное количество наблюдений во всех k выборках. В каждом из этих N циклов из всей совокупности N наблюдений извлекается один случай и по оставшимся N - 1 данным вычисляются дискриминантные функции. Да-лее для выделенного наблюдения осуществляется диагностика его принадлежности и оценивается ее правильность или ошибочность. Этот процесс повторяется до тех пор пока все наблюдения не пройдут подобный независимый контроль. В результате получаются дискриминантные функции, и по независимым данным оценивается классификационная таблица. Очевидно, что последний способ требует проведения большого количества вычислений, но дает наиболее точные результаты.

 

Пример 7.1 В примере 2.3 мы проверяли степень случайности различий векторов сред-них для трех краниологических серий, относящихся к средневековым восточным славя-нам-вятичам. Первая из них характеризует группы вятичей, расселенные в верхнем тече-нии р.Москвы и ее притока - Истры, вторая – относится к вятичам среднего течения этой реки, третья – характеризует племена нижнего течения Москвы и бассейн р.Пахры. С использованием критерия Уилкса было доказано, что наблюдается неслучайная вариации этих векторов. Построим дискриминантные функции для этих данных.

- 178 -

Таблица 7.2 Коэффициенты дискриминантных функций для трех серий средневековых славян-вятичей

 

Признаки Верхнее течение Москвы N = 13 Среднее течение Москвы N = 9 Нижнее течение Москвы N = 24
1 Продольный диаметр черепа 4.424 4.315 4.421
8 Поперечный диаметр черепа 4.034 4.437 4.327
45 Скуловой диаметр 1.340 1.312 1.049
48 Верхняя высота лица 1.186 1.169 1.315
54 Ширина грушевидного отверст. 5.802 4.954 5.368
751 Угол выступания носа 2.126 2.246 2.074
77 Назомалярный угол 5.522 5.320 5.477
ZM Зигомаксиллярный угол 4.953 5.003 5.022
Константы -1606.57 -1597.51 -1607.12

 

Для трех краниологических серий были получены три дискриминантные функции, приведенные в таблице 7.2. Значения расстояний Махаланобиса между тремя выборками приведены в таблице 7.3. Там же помещены значения F-критерия для них и вероятности статистической ошибки 1-го рода. Можно видеть, что лишь для сочетания первой и третьей выборок можно говорить о неслучайных различия векторов средних, потому что только для этого сочетания была найдена вероятность ошибки первого рода 0.035 меньшая стандартного уровня 0.05.

В таблице 7.4 в качестве примера приведены значения расстояний Махаланобиса для первых десяти индивидуальных наблюдений, реально входящих в первую выборку, по отношению к центральным точкам всех трех групп. Можно видеть, что по значениям признаков только наблюдения 1, 4, 5, 7, 8 и 9 имеют наименьшее расстояние Махалано-биса с первой выборкой, к которой они относятся. Эти 6 наблюдений по значениям диск-риминантной функции будут правильно классифицированы как относящиеся к первой группе. В то же самое время, наблюдения 2, 6 и 10 имеют наименьшее расстояние Маха-ланобиса с центром второй выборки. Аналогичным образом, наблюдение 3 имеет

 

Таблица 7.3. Значения расстояний Махаланобиса, соответствующих им значений F-критерия и P - вероятностей ошибки 1-го рода

 

Группы Показатели
  Dm1i2 3.846 2.886
F 1.932 2.381
P 0.084 0.035
    Dm1i2 - 2.939
F - 1.825
P - 0.104

 

Таблица 7.4 Индивидуальные расстояния Махаланобиса от центров трех групп для первых десяти наблюдений из первой выборки

 

Наблюдения Расстояние до центра 1-й выборки Расстояние до центра 2-й выборки Расстояние до центра 3-й выборки
3.704 10.037 7.400
11.670 6.919 7.332
3.716 2.895 2.850
7.883 13.949 9.164
7.267 14.641 15.969
11.451 10.262 19.945
3.206 8.085 6.783
8.905 12.158 12.531
11.498 14.239 16.468
2.172 2.164 2.803

 

наименьшее расстояние Махаланобиса с 3 выборкой. Поэтому, эти четыре наблюдения по значениям признаков будут классифицированы неверно.

В таблице 7.5 в качестве примера первых десяти индивидуальных наблюдений приве-дены значения вероятностей, того, что они относятся к каждой из трех сравниваемых групп. Реально все эти наблюдения принадлежат первой выборке. И по данным этой таблицы можно видеть, что только наблюдения 1, 4, 5, 7, 8 и 9 имеют наибольшее зна-чение апостериорной вероятности принадлежности к первой группе, к которой они реаль-но и относятся. Поэтому, их классификация по значениям признаков будет правильной. Остальные четыре наблюдения по оценкам вероятности принадлежности к разным груп-пам будут классифицированы неверно.

В таблице 7.6 приведена таблица, содержащая результаты классификации всех наблю-дений, участвовавших в анализе по значениям системы трех дискриминантных функ-ций. Каждая строка этой таблицы содержит данные результатов классификации отдель-ных наблюдений по значениям их признаков с применением дискриминантных функ-ций. Можно видеть, что вероятность совершить ошибку отнесения, взятого с рассматри-ваемой территории средневекового славянского черепа к одной из трех групп вятичей составляет 26.1 - 38.5% или в среднем - 31.1%. Этот результат не является неожиданнос-тью, так как рассмотренная изменчивость краниологических признаков не характеризует-ся присутствием здесь антропологических различий очень высокого таксономического ранга.

 

7.12 Как мы видели из приведенного типичного примера дискриминантного анализа, вычисления здесь сводятся к нахождению системы дискриминантных функций и оценке их работоспособности. Как эти возможности могут использоваться в исследовательской практике при необходимости проверки принадлежности той или иной рассматриваемой группы наблюдений к одной из нескольких (k) совокупностей, из которых взяты обу-чающие выборки?

Таблица 7.5. Вероятности того, что индивидуальные наблюдения относятся к трем сравниваемым группам

 

Наблюдения Вероятность принадлежности к 1-й выборке Вероятность принадлежности ко 2-й выборке Вероятность принадлежности к 3-й выборке
0.757 0.022 0.220
0.040 0.302 0.656
0.204 0.213 0.582
0.498 0.016 0.484
0.960 0.016 0.022
0.438 0.549 0.011
0.730 0.044 0.225
0.695 0.094 0.209
0.752 0.132 0.115
0.328 0.228 0.442

 

Прямой путь достижения результата может заключаться в проведении дискриминан-тного анализа по k + 1 выборке, одной из которых является диагносцируемая группа наблюдений, а остальные k являются - обучающими. В результате вычислений можно получить результаты, по которым нетрудно выяснить с какой или с какими обучающими выборками исследуемые наблюдения обнаруживают наибольшее число малых индиви-

 

Таблица 7.6. Классификационная таблица дискриминантного анализа трех краниологических серий средневековых славян-вятичей

 

Группа Процент правильных отнесений
61.53
66.66
73.91
Всего 68.88

 

дуальных расстояний Махаланобиса и высоких апостериорных вероятностей. Аналогич-ным образом, классификационная таблица может показать, по отношению к каким обуча-ющим выборкам исследуемые данные часто диагносцируются как принадлежащие к ним. Очевидно, именно для этих совокупностей можно будет говорить о наличии очевидного антропологического сходства с изучаемыми данными.

 








Дата добавления: 2016-02-13; просмотров: 595;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.038 сек.