Дискриминация при числе совокупностей большем двух

7.8 Линейная дискриминантная функция Фишера предполагает, что имеется только две совокупности, к которым могут относиться испытуемое наблюдение или группа наблю-дений. Это обстоятельство сильно ограничивает ее применение, так как никогда не гаран-тировано, что мы не имеем дело с большим чем два антропологическими вариантами, к которым могут относиться дискриминируемые наблюдения. Поэтому, необходим более общий подход к решению задачи дискриминации, который предполагает возможность отнесения некоторых наблюдений к нескольким (k) совокупностям w₁, w₂, w₃, ..., w_k.

Он может быть построен на основе преобразования линейной дискриминантной функ-ции Фишера. Обычное решающее правило (7.19) основано на сопоставлении полу-ченного значения Y c критическим уровнем дискриминации Y_o. Его можно также запи-сать в развернутом виде. Так, наблюдение со значением дискриминантной функции Y от-носится к w₁, если Y < Y_o или Y - Y_o < 0. То же самое в развернутом виде записывается как

X' S^-1(M₂ - M₁) - (M₂ - M₁) ' S^-1(M₂ + M₁) < 0.

Проводя несложные преобразования, можно получить это же условие в виде

- 174 -

1 1

X' S^-1M₂ - M₂' S^-1M₂ < X' S^-1M₁ - M₁' S^-1M₁ .

2 2

Аналогичным образом, наблюдение со значением Y относится к совокупности w₂, если Y ³ Y_o или Y - Y_o . ³ 0. Записывая это выражение в развернутом виде и проводя необхо-димые преобразования, можно получить это условие как

1 1

X' S^-1M₂ - M₂' S^-1M₂ ³ X' S^-1M₁ - M₁' S^-1M₁ .

2 2

Нетрудно видеть, что значения M₁' S^-1M₁ и M₂' S^-1M₂ определяются только векторами средних M₁и M₂ исходных признаков и ковариационной матрицей S. Поэтому, они являются константами, а от вектора индивидуальных значений признаков X зависят только члены X' S^-1M₁ и X' S^-1M₂.

Введем следующие обозначения. Пусть u₁ есть дискриминантная функция, определя-ющая принадлежность изучаемого наблюдения к совокупности w₁, и пусть она находится по формуле

u₁ = X' S^-1M₁ - М₁' S^-1M₁ = a₁'X - a_o1 . (7.27)

Здесь набор коэффициентов a₁ включает a₁₁, a₁₂, a₁₃, ..., a_1m и находится из a₁ = S^-1M₁, а константа a_o1 = М₁' S^-1M₁/2. Аналогичным образом, пусть u₂ есть дискриминантная функция, определяющая принадлежность к совокупности w₂. Она находится по аналогичному выражению

u₂ = X' S^-1M₂ - М₂' S^-1M₂ = a₂'X - a_o2 . (7.28)

где a₂ = S^-1M₂, а константа a_o2 = М₂' S^-1M₂/2. Тогда условием отнесения наблюдения к w₁ будет выполнение неравенства u₁ ³ u₂, а отнесение этого наблюдения к w₂ должно проводиться при u₁ < u₂.

Итак, на основе линейной дискриминантной функции Фишера Y можно получить сис-тему двух других дискриминантных функций u₁ и u₂, по соотношению значений которых можно классифицировать наблюдения. На первый взгляд последний результат может показаться излишне громоздким. Однако, он легко обобщается на случай k совокупностей w₁, w₂, w₃, ..., w_k.

7.9 Пусть мы имеем для k совокупностей обучающие выборки c объемами N_i, в каждой из которых получены вектор средних M_i и ковариационная матрица S_i для набора m исходных признаков X. Пусть также ковариационные матрицы S_i различаются слабо, и на их основе можно получить единую оценку

N₁S₁ + N₂S₂ + ... + N_kS_k

S = .

N₁ + N₂ + ... + N_k

Тогда для каждой совокупности w_i можно получить дискриминантную функцию

u_i = a_i' X- a_oi , (7.29)

где a_i = S^-1M_i, а константа a_oi = M_i'S^-1M_i/ 2. Система этих k дискриминантных функций

u₁ = a₁'X - a_o1 = a₁₁X₁ + a₁₂X₂ + ... + a_1mX_m - a_o1

u₂ = a₂'X - a_o2 = a₂₁X₁ + a₂₂X₂ + ... + a_2mX_m - a_o2

... ... ... … … … … …

u_k = a_k'X - a_ok = a_k1X₁ + a_k2X₂ + ... + a_kmX_m - a_ok

позволит определить принадлежность любого наблюдения с вектором значений призна-ков X_j. Для этого по нему следует вычислить величины всех дискриминантных функций u_1j, u_2j, ..., u_kj, и выбрав из них максимальную величину - u_ij = max, принять решение об отнесении рассматриваемого наблюдения к i-й совокупности w_i.

Учет априорных вероятностей P₁, P₂, ..., P_k модифицирует формулу (7.29) в виде

u_i = a_i'X- a_oi + ln P_i .

Если можно считать, что эти вероятности равны P₁ = P₂ = ... = P_k, тогда члены ln P_i также будут одинаковы, и их можно будет опустить, так как их присутствие во всех дискриминантных функциях не скажется на результатах определения максимальной величины u_ij.

Очевидно, что описанный подход может применяться и для случая дискриминации в две совокупности наблюдений, что позволяет использовать единые компьютерные прог-раммы для разного числа k, в том числе и для k = 2.

7.10 Линейной дискриминантной функции Фишера соответствовала величина рас-стояния Махаланобиса D_m². При дискриминантном анализе k совокупностей может быть найдено (k - 1)k/2 значений таких расстояний для каждого попарного сочетания выборок. Все эти значения образуют симметрическую матрицу расстояний

0 D_m12² D_m13² ... D_m1k²

D_m12²0 D_m23²... D_m2k²

D_m = D_m13²D_m23²0 ... D_m3k² . (7.30)

... ... ... ... ...

D_m1k² D_m2k² D_m3k²... 0

По значениям D_mij² расстояния Махаланобиса для i-й и j-й выборки можно определить значение T² - статистики Хотеллинга, которое в соответствии с формулой (2.3) равно

N₁N₂

T² = D_mij² .

N₁ + N₂

На основе этого критерия проверки статистических гипотез о равенстве двух векторов средних с использованием формулы (2.5) можно проверить достоверность различий наборов средних для i-й и j-й выборок.

Иногда используется так называемое обобщенное расстояние Махаланобиса

D_mo² = S N_i (M_i - M_o)'S^-1(M_i - M_o) , (7.31)

^{i = 1}

где вектор M_o включает общие средние величины исходных признаков, найденные по всем выборкам

N₁M₁ + N₂M₂ + ... + N_kM_k

M_o = .

N₁ + N₂ + ... + N_k

Обобщенное расстояние Махаланобиса есть, таким образом, сумма аналогичных рассто-яний для центра каждой выборки от общего центра всех выборок.

Кроме значений рас-стояния Махаланобиса D_m², найденного по центральным точкам, для каждой пары вы-борок, в дискриминантном анализе часто вычисляются такие расстояния для каждого рассматриваемого j-го наблюдения по отношению к центрам всех этих k выборок D_mj1², D_mj2², D_mj3², ..., D_mjk². Эти расстояния находятся в соответствии с разделом 1.9 по формуле D_mji² = (X_j- M_i)'S^-1(X_i - M_i) , где X_j - индивидуальный вектор значений признаков, M_i – век-тор средних в i-й выборке. Величина D_mji² для j-го наблюдения по отношению к вектору средних i-й выборки выражает в численном виде геометрическое расстояние в m-мерном пространстве исходных признаков от центра многомерного корреляционного эллипсои-да для i-й группы наблюдений до точки, соответствующей этому наблюдению. По зна-чениям D_mji² в соответствии с разделами 1.9 и 2.2 можно оценить вероятность P_Dji того, что j-е наблюдение относится к i-й совокупности. Эти вероятности называются апостери-орными. Очевидно, что наблюдение должно относиться к той группе наблюдений, с которой было найдено наименьшее расстояние Махаланобиса D_mji² и соответствующая ему наибольшая апостериорная вероятность P_Dji. Разумеется, это отнесение совпадает с аналогичным результатом, полученным при рассмотрении значений дискриминантных функций. Иными словами, если для некоторого j-го наблюдения найдена наибольшая величина дискриминантной функции u_ji, по отношению к i-й группе наблюдений, то наименьшее D_mji² и наибольшее P_Dji будут найдены именно для этой i-й группы w_i. Большинство компьютерных пакетов программ при желании вычисляют значения индивидуальных расстояний Махаланобиса D_mji² и апостериорных вероятностей P_Dji для каждого рассматриваемого в дискриминантном анализе наблюдения по отношению к каждой выборке. Эти результаты записываются в специальный файл.

7.11 Работоспособность каждого решающего дискриминантного правила определяется вероятностью ошибок дискриминации, которые при его использовании можно совер-шить. Для линейной дискриминантной функции Фишера эти вероятности e₁ и e₂ оценива-лись в аналитическом виде в соответствии со свойствами нормального распределения. В случае применения системы k дискриминантных функций, каждая из которых оценивает возможность отнесения наблюдения по отношению к одной из k групп, работоспособ-ность этой системы оцениваетсяпри помощи так называемой классификационной табли-цы, которая получается по результатам дискриминантного анализа.

Каждая строка этой таблицы содержит данные по i-й выборке. Здесь обычно приводи-тся ее объем (N_i) и количества наблюдений, которые были по результатам дискриминантного анализа расклассифицированы либо как принадлежащие к этой группе наблюде-ний (n_ii), либо - как относящиеся к другим группам наблюдений (n_ij, при i ¹ j). Обычно эта таблица имеет следующий вид

Группы				...	k	Ni
	n₁₁	n₁₂	n₁₃...	…	n_1k	N₁
	n₂₁	n₂₂	n₂₃..	…	n_2k	N₂
...	...	...	...	...	...	...
k	n_k1	n_k2	n_k3	…	n_kk	N_k

- 177 -

Очевидно, что по классификационной таблице можно найти долю правильно отнесен-ных наблюдений - n_ii/N_i, тогда как доля ошибочных отнесений может быть найдена в виде

n_ii

P_ei = 1 - . (7.32)

N_i

Последние значения являются эмпирическими оценками вероятности ошибки e_i с которой наблюдения, в действительности принадлежащие к i-й группе наблюдений, расцениваются как не относящиеся к ней. Кроме этих долей ошибочных диагнозов P_ei может быть най-дена усредненная оценка доли неправильных диагнозов принадлежности наблюдений ко всем k их группам

n₁₁ + n₂₂ + ... + n_kk

P_e = 1 - . (7.33)

N₁ + N₂ + ... + N_k

В числителе отношения стоит сумма числа правильных диагнозов для всех строк клас-сификационной таблицы, в знаменателе - суммарное количество наблюдений.

Для вычисления значений n_ij_, стоящих в ячейках классификационных таблиц, может использоваться несколько методов. Простейший из них заключается в том, что по всем N = N₁ + N₂ + ... + N_k данным производится построение дискриминантных функций u₁, u₂, ..., u_k. Затем с использованием этих функций по каждому из этих же наблюдений про-изводится диагноз принадлежности к той или иной группе и отмечается его правильность или ошибочность. В результате второго цикла вычислений заполняется классификацион-ная таблица. Этот подход дает смещенные результаты.

Другой метод основан на том, что все данные делятся на две примерно равные час-ти. Первая их половина используется для получения дискриминантных функций, вторая - для заполнения классификационной таблицы. Этот подход дает точные результаты, но требует вдвое большего числа наблюдений по сравнению с первым.

Третий подход основан на так называемом скользящем экзамене. В соответствии с ним все вычисления проводятся N раз, где N суммарное количество наблюдений во всех k выборках. В каждом из этих N циклов из всей совокупности N наблюдений извлекается один случай и по оставшимся N - 1 данным вычисляются дискриминантные функции. Да-лее для выделенного наблюдения осуществляется диагностика его принадлежности и оценивается ее правильность или ошибочность. Этот процесс повторяется до тех пор пока все наблюдения не пройдут подобный независимый контроль. В результате получаются дискриминантные функции, и по независимым данным оценивается классификационная таблица. Очевидно, что последний способ требует проведения большого количества вычислений, но дает наиболее точные результаты.

Пример 7.1 В примере 2.3 мы проверяли степень случайности различий векторов сред-них для трех краниологических серий, относящихся к средневековым восточным славя-нам-вятичам. Первая из них характеризует группы вятичей, расселенные в верхнем тече-нии р.Москвы и ее притока - Истры, вторая – относится к вятичам среднего течения этой реки, третья – характеризует племена нижнего течения Москвы и бассейн р.Пахры. С использованием критерия Уилкса было доказано, что наблюдается неслучайная вариации этих векторов. Построим дискриминантные функции для этих данных.

- 178 -

Таблица 7.2 Коэффициенты дискриминантных функций для трех серий средневековых славян-вятичей

Признаки	Верхнее течение Москвы N = 13	Среднее течение Москвы N = 9	Нижнее течение Москвы N = 24
1 Продольный диаметр черепа	4.424	4.315	4.421
8 Поперечный диаметр черепа	4.034	4.437	4.327
45 Скуловой диаметр	1.340	1.312	1.049
48 Верхняя высота лица	1.186	1.169	1.315
54 Ширина грушевидного отверст.	5.802	4.954	5.368
751 Угол выступания носа	2.126	2.246	2.074
77 Назомалярный угол	5.522	5.320	5.477
ZM Зигомаксиллярный угол	4.953	5.003	5.022
Константы	-1606.57	-1597.51	-1607.12

Для трех краниологических серий были получены три дискриминантные функции, приведенные в таблице 7.2. Значения расстояний Махаланобиса между тремя выборками приведены в таблице 7.3. Там же помещены значения F-критерия для них и вероятности статистической ошибки 1-го рода. Можно видеть, что лишь для сочетания первой и третьей выборок можно говорить о неслучайных различия векторов средних, потому что только для этого сочетания была найдена вероятность ошибки первого рода 0.035 меньшая стандартного уровня 0.05.

В таблице 7.4 в качестве примера приведены значения расстояний Махаланобиса для первых десяти индивидуальных наблюдений, реально входящих в первую выборку, по отношению к центральным точкам всех трех групп. Можно видеть, что по значениям признаков только наблюдения 1, 4, 5, 7, 8 и 9 имеют наименьшее расстояние Махалано-биса с первой выборкой, к которой они относятся. Эти 6 наблюдений по значениям диск-риминантной функции будут правильно классифицированы как относящиеся к первой группе. В то же самое время, наблюдения 2, 6 и 10 имеют наименьшее расстояние Маха-ланобиса с центром второй выборки. Аналогичным образом, наблюдение 3 имеет

Таблица 7.3. Значения расстояний Махаланобиса, соответствующих им значений F-критерия и P - вероятностей ошибки 1-го рода

Группы	Показатели
	D_m1i²	3.846	2.886
F	1.932	2.381
P	0.084	0.035
	D_m1i²	-	2.939
F	-	1.825
P	-	0.104

Таблица 7.4 Индивидуальные расстояния Махаланобиса от центров трех групп для первых десяти наблюдений из первой выборки

Наблюдения	Расстояние до центра 1-й выборки	Расстояние до центра 2-й выборки	Расстояние до центра 3-й выборки
	3.704	10.037	7.400
	11.670	6.919	7.332
	3.716	2.895	2.850
	7.883	13.949	9.164
	7.267	14.641	15.969
	11.451	10.262	19.945
	3.206	8.085	6.783
	8.905	12.158	12.531
	11.498	14.239	16.468
	2.172	2.164	2.803

наименьшее расстояние Махаланобиса с 3 выборкой. Поэтому, эти четыре наблюдения по значениям признаков будут классифицированы неверно.

В таблице 7.5 в качестве примера первых десяти индивидуальных наблюдений приве-дены значения вероятностей, того, что они относятся к каждой из трех сравниваемых групп. Реально все эти наблюдения принадлежат первой выборке. И по данным этой таблицы можно видеть, что только наблюдения 1, 4, 5, 7, 8 и 9 имеют наибольшее зна-чение апостериорной вероятности принадлежности к первой группе, к которой они реаль-но и относятся. Поэтому, их классификация по значениям признаков будет правильной. Остальные четыре наблюдения по оценкам вероятности принадлежности к разным груп-пам будут классифицированы неверно.

В таблице 7.6 приведена таблица, содержащая результаты классификации всех наблю-дений, участвовавших в анализе по значениям системы трех дискриминантных функ-ций. Каждая строка этой таблицы содержит данные результатов классификации отдель-ных наблюдений по значениям их признаков с применением дискриминантных функ-ций. Можно видеть, что вероятность совершить ошибку отнесения, взятого с рассматри-ваемой территории средневекового славянского черепа к одной из трех групп вятичей составляет 26.1 - 38.5% или в среднем - 31.1%. Этот результат не является неожиданнос-тью, так как рассмотренная изменчивость краниологических признаков не характеризует-ся присутствием здесь антропологических различий очень высокого таксономического ранга.

7.12 Как мы видели из приведенного типичного примера дискриминантного анализа, вычисления здесь сводятся к нахождению системы дискриминантных функций и оценке их работоспособности. Как эти возможности могут использоваться в исследовательской практике при необходимости проверки принадлежности той или иной рассматриваемой группы наблюдений к одной из нескольких (k) совокупностей, из которых взяты обу-чающие выборки?

Таблица 7.5. Вероятности того, что индивидуальные наблюдения относятся к трем сравниваемым группам

Наблюдения	Вероятность принадлежности к 1-й выборке	Вероятность принадлежности ко 2-й выборке	Вероятность принадлежности к 3-й выборке
	0.757	0.022	0.220
	0.040	0.302	0.656
	0.204	0.213	0.582
	0.498	0.016	0.484
	0.960	0.016	0.022
	0.438	0.549	0.011
	0.730	0.044	0.225
	0.695	0.094	0.209
	0.752	0.132	0.115
	0.328	0.228	0.442

Прямой путь достижения результата может заключаться в проведении дискриминан-тного анализа по k + 1 выборке, одной из которых является диагносцируемая группа наблюдений, а остальные k являются - обучающими. В результате вычислений можно получить результаты, по которым нетрудно выяснить с какой или с какими обучающими выборками исследуемые наблюдения обнаруживают наибольшее число малых индиви-

Таблица 7.6. Классификационная таблица дискриминантного анализа трех краниологических серий средневековых славян-вятичей

Группа				Процент правильных отнесений
				61.53
				66.66
				73.91
Всего				68.88

дуальных расстояний Махаланобиса и высоких апостериорных вероятностей. Аналогич-ным образом, классификационная таблица может показать, по отношению к каким обуча-ющим выборкам исследуемые данные часто диагносцируются как принадлежащие к ним. Очевидно, именно для этих совокупностей можно будет говорить о наличии очевидного антропологического сходства с изучаемыми данными.

Дата добавления: 2016-02-13; просмотров: 653;