Дискриминация при числе совокупностей большем двух
7.8 Линейная дискриминантная функция Фишера предполагает, что имеется только две совокупности, к которым могут относиться испытуемое наблюдение или группа наблю-дений. Это обстоятельство сильно ограничивает ее применение, так как никогда не гаран-тировано, что мы не имеем дело с большим чем два антропологическими вариантами, к которым могут относиться дискриминируемые наблюдения. Поэтому, необходим более общий подход к решению задачи дискриминации, который предполагает возможность отнесения некоторых наблюдений к нескольким (k) совокупностям w1, w2, w3, ..., wk.
Он может быть построен на основе преобразования линейной дискриминантной функ-ции Фишера. Обычное решающее правило (7.19) основано на сопоставлении полу-ченного значения Y c критическим уровнем дискриминации Yo. Его можно также запи-сать в развернутом виде. Так, наблюдение со значением дискриминантной функции Y от-носится к w1, если Y < Yo или Y - Yo < 0. То же самое в развернутом виде записывается как
X' S-1(M2 - M1) - (M2 - M1) ' S-1(M2 + M1) < 0.
Проводя несложные преобразования, можно получить это же условие в виде
- 174 -
1 1
X' S-1M2 - M2' S-1M2 < X' S-1M1 - M1' S-1M1 .
2 2
Аналогичным образом, наблюдение со значением Y относится к совокупности w2, если Y ³ Yo или Y - Yo . ³ 0. Записывая это выражение в развернутом виде и проводя необхо-димые преобразования, можно получить это условие как
1 1
X' S-1M2 - M2' S-1M2 ³ X' S-1M1 - M1' S-1M1 .
2 2
Нетрудно видеть, что значения M1' S-1M1 и M2' S-1M2 определяются только векторами средних M1 и M2 исходных признаков и ковариационной матрицей S. Поэтому, они являются константами, а от вектора индивидуальных значений признаков X зависят только члены X' S-1M1 и X' S-1M2.
Введем следующие обозначения. Пусть u1 есть дискриминантная функция, определя-ющая принадлежность изучаемого наблюдения к совокупности w1, и пусть она находится по формуле
u1 = X' S-1M1 - М1' S-1M1 = a1'X - ao1 . (7.27)
Здесь набор коэффициентов a1 включает a11, a12, a13, ..., a1m и находится из a1 = S-1M1, а константа ao1 = М1' S-1M1 /2. Аналогичным образом, пусть u2 есть дискриминантная функция, определяющая принадлежность к совокупности w2. Она находится по аналогичному выражению
u2 = X' S-1M2 - М2' S-1M2 = a2'X - ao2 . (7.28)
где a2 = S-1M2, а константа ao2 = М2' S-1M2 /2. Тогда условием отнесения наблюдения к w1 будет выполнение неравенства u1 ³ u2, а отнесение этого наблюдения к w2 должно проводиться при u1 < u2.
Итак, на основе линейной дискриминантной функции Фишера Y можно получить сис-тему двух других дискриминантных функций u1 и u2, по соотношению значений которых можно классифицировать наблюдения. На первый взгляд последний результат может показаться излишне громоздким. Однако, он легко обобщается на случай k совокупностей w1, w2, w3, ..., wk.
7.9 Пусть мы имеем для k совокупностей обучающие выборки c объемами Ni, в каждой из которых получены вектор средних Mi и ковариационная матрица Si для набора m исходных признаков X. Пусть также ковариационные матрицы Si различаются слабо, и на их основе можно получить единую оценку
N1S1 + N2S2 + ... + NkSk
S = .
N1 + N2 + ... + Nk
Тогда для каждой совокупности wi можно получить дискриминантную функцию
ui = ai' X- aoi , (7.29)
где ai = S-1Mi, а константа aoi = Mi'S-1Mi / 2. Система этих k дискриминантных функций
u1 = a1'X - ao1 = a11X1 + a12X2 + ... + a1mXm - ao1
u2 = a2'X - ao2 = a21X1 + a22X2 + ... + a2mXm - ao2
... ... ... … … … … …
uk = ak'X - aok = ak1X1 + ak2X2 + ... + akmXm - aok
позволит определить принадлежность любого наблюдения с вектором значений призна-ков Xj. Для этого по нему следует вычислить величины всех дискриминантных функций u1j, u2j, ..., ukj, и выбрав из них максимальную величину - uij = max, принять решение об отнесении рассматриваемого наблюдения к i-й совокупности wi.
Учет априорных вероятностей P1, P2, ..., Pk модифицирует формулу (7.29) в виде
ui = ai'X- aoi + ln Pi .
Если можно считать, что эти вероятности равны P1 = P2 = ... = Pk, тогда члены ln Pi также будут одинаковы, и их можно будет опустить, так как их присутствие во всех дискриминантных функциях не скажется на результатах определения максимальной величины uij.
Очевидно, что описанный подход может применяться и для случая дискриминации в две совокупности наблюдений, что позволяет использовать единые компьютерные прог-раммы для разного числа k, в том числе и для k = 2.
7.10 Линейной дискриминантной функции Фишера соответствовала величина рас-стояния Махаланобиса Dm2. При дискриминантном анализе k совокупностей может быть найдено (k - 1)k/2 значений таких расстояний для каждого попарного сочетания выборок. Все эти значения образуют симметрическую матрицу расстояний
0 Dm122 Dm132 ... Dm1k2
Dm122 0 Dm232 ... Dm2k2
Dm = Dm132 Dm232 0 ... Dm3k2 . (7.30)
... ... ... ... ...
Dm1k2 Dm2k2 Dm3k2 ... 0
По значениям Dmij2 расстояния Махаланобиса для i-й и j-й выборки можно определить значение T2 - статистики Хотеллинга, которое в соответствии с формулой (2.3) равно
N1N2
T2 = Dmij2 .
N1 + N2
На основе этого критерия проверки статистических гипотез о равенстве двух векторов средних с использованием формулы (2.5) можно проверить достоверность различий наборов средних для i-й и j-й выборок.
Иногда используется так называемое обобщенное расстояние Махаланобиса
k
Dmo2 = S Ni (Mi - Mo)'S-1(Mi - Mo) , (7.31)
i = 1
где вектор Mo включает общие средние величины исходных признаков, найденные по всем выборкам
N1M1 + N2M2 + ... + NkMk
Mo = .
N1 + N2 + ... + Nk
Обобщенное расстояние Махаланобиса есть, таким образом, сумма аналогичных рассто-яний для центра каждой выборки от общего центра всех выборок.
Кроме значений рас-стояния Махаланобиса Dm2, найденного по центральным точкам, для каждой пары вы-борок, в дискриминантном анализе часто вычисляются такие расстояния для каждого рассматриваемого j-го наблюдения по отношению к центрам всех этих k выборок Dmj12, Dmj22, Dmj32, ..., Dmjk2. Эти расстояния находятся в соответствии с разделом 1.9 по формуле Dmji2 = (Xj- Mi)'S-1(Xi - Mi) , где Xj - индивидуальный вектор значений признаков, Mi – век-тор средних в i-й выборке. Величина Dmji2 для j-го наблюдения по отношению к вектору средних i-й выборки выражает в численном виде геометрическое расстояние в m-мерном пространстве исходных признаков от центра многомерного корреляционного эллипсои-да для i-й группы наблюдений до точки, соответствующей этому наблюдению. По зна-чениям Dmji2 в соответствии с разделами 1.9 и 2.2 можно оценить вероятность PDji того, что j-е наблюдение относится к i-й совокупности. Эти вероятности называются апостери-орными. Очевидно, что наблюдение должно относиться к той группе наблюдений, с которой было найдено наименьшее расстояние Махаланобиса Dmji2 и соответствующая ему наибольшая апостериорная вероятность PDji. Разумеется, это отнесение совпадает с аналогичным результатом, полученным при рассмотрении значений дискриминантных функций. Иными словами, если для некоторого j-го наблюдения найдена наибольшая величина дискриминантной функции uji, по отношению к i-й группе наблюдений, то наименьшее Dmji2 и наибольшее PDji будут найдены именно для этой i-й группы wi. Большинство компьютерных пакетов программ при желании вычисляют значения индивидуальных расстояний Махаланобиса Dmji2 и апостериорных вероятностей PDji для каждого рассматриваемого в дискриминантном анализе наблюдения по отношению к каждой выборке. Эти результаты записываются в специальный файл.
7.11 Работоспособность каждого решающего дискриминантного правила определяется вероятностью ошибок дискриминации, которые при его использовании можно совер-шить. Для линейной дискриминантной функции Фишера эти вероятности e1 и e2 оценива-лись в аналитическом виде в соответствии со свойствами нормального распределения. В случае применения системы k дискриминантных функций, каждая из которых оценивает возможность отнесения наблюдения по отношению к одной из k групп, работоспособ-ность этой системы оцениваетсяпри помощи так называемой классификационной табли-цы, которая получается по результатам дискриминантного анализа.
Каждая строка этой таблицы содержит данные по i-й выборке. Здесь обычно приводи-тся ее объем (Ni) и количества наблюдений, которые были по результатам дискриминантного анализа расклассифицированы либо как принадлежащие к этой группе наблюде-ний (nii), либо - как относящиеся к другим группам наблюдений (nij, при i ¹ j). Обычно эта таблица имеет следующий вид
Группы | ... | k | Ni | |||
n11 | n12 | n13... | … | n1k | N1 | |
n21 | n22 | n23.. | … | n2k | N2 | |
... | ... | ... | ... | ... | ... | ... |
k | nk1 | nk2 | nk3 | … | nkk | Nk |
- 177 -
Очевидно, что по классификационной таблице можно найти долю правильно отнесен-ных наблюдений - nii/Ni, тогда как доля ошибочных отнесений может быть найдена в виде
nii
Pei = 1 - . (7.32)
Ni
Последние значения являются эмпирическими оценками вероятности ошибки ei с которой наблюдения, в действительности принадлежащие к i-й группе наблюдений, расцениваются как не относящиеся к ней. Кроме этих долей ошибочных диагнозов Pei может быть най-дена усредненная оценка доли неправильных диагнозов принадлежности наблюдений ко всем k их группам
n11 + n22 + ... + nkk
Pe = 1 - . (7.33)
N1 + N2 + ... + Nk
В числителе отношения стоит сумма числа правильных диагнозов для всех строк клас-сификационной таблицы, в знаменателе - суммарное количество наблюдений.
Для вычисления значений nij, стоящих в ячейках классификационных таблиц, может использоваться несколько методов. Простейший из них заключается в том, что по всем N = N1 + N2 + ... + Nk данным производится построение дискриминантных функций u1, u2, ..., uk. Затем с использованием этих функций по каждому из этих же наблюдений про-изводится диагноз принадлежности к той или иной группе и отмечается его правильность или ошибочность. В результате второго цикла вычислений заполняется классификацион-ная таблица. Этот подход дает смещенные результаты.
Другой метод основан на том, что все данные делятся на две примерно равные час-ти. Первая их половина используется для получения дискриминантных функций, вторая - для заполнения классификационной таблицы. Этот подход дает точные результаты, но требует вдвое большего числа наблюдений по сравнению с первым.
Третий подход основан на так называемом скользящем экзамене. В соответствии с ним все вычисления проводятся N раз, где N суммарное количество наблюдений во всех k выборках. В каждом из этих N циклов из всей совокупности N наблюдений извлекается один случай и по оставшимся N - 1 данным вычисляются дискриминантные функции. Да-лее для выделенного наблюдения осуществляется диагностика его принадлежности и оценивается ее правильность или ошибочность. Этот процесс повторяется до тех пор пока все наблюдения не пройдут подобный независимый контроль. В результате получаются дискриминантные функции, и по независимым данным оценивается классификационная таблица. Очевидно, что последний способ требует проведения большого количества вычислений, но дает наиболее точные результаты.
Пример 7.1 В примере 2.3 мы проверяли степень случайности различий векторов сред-них для трех краниологических серий, относящихся к средневековым восточным славя-нам-вятичам. Первая из них характеризует группы вятичей, расселенные в верхнем тече-нии р.Москвы и ее притока - Истры, вторая – относится к вятичам среднего течения этой реки, третья – характеризует племена нижнего течения Москвы и бассейн р.Пахры. С использованием критерия Уилкса было доказано, что наблюдается неслучайная вариации этих векторов. Построим дискриминантные функции для этих данных.
- 178 -
Таблица 7.2 Коэффициенты дискриминантных функций для трех серий средневековых славян-вятичей
Признаки | Верхнее течение Москвы N = 13 | Среднее течение Москвы N = 9 | Нижнее течение Москвы N = 24 |
1 Продольный диаметр черепа | 4.424 | 4.315 | 4.421 |
8 Поперечный диаметр черепа | 4.034 | 4.437 | 4.327 |
45 Скуловой диаметр | 1.340 | 1.312 | 1.049 |
48 Верхняя высота лица | 1.186 | 1.169 | 1.315 |
54 Ширина грушевидного отверст. | 5.802 | 4.954 | 5.368 |
751 Угол выступания носа | 2.126 | 2.246 | 2.074 |
77 Назомалярный угол | 5.522 | 5.320 | 5.477 |
ZM Зигомаксиллярный угол | 4.953 | 5.003 | 5.022 |
Константы | -1606.57 | -1597.51 | -1607.12 |
Для трех краниологических серий были получены три дискриминантные функции, приведенные в таблице 7.2. Значения расстояний Махаланобиса между тремя выборками приведены в таблице 7.3. Там же помещены значения F-критерия для них и вероятности статистической ошибки 1-го рода. Можно видеть, что лишь для сочетания первой и третьей выборок можно говорить о неслучайных различия векторов средних, потому что только для этого сочетания была найдена вероятность ошибки первого рода 0.035 меньшая стандартного уровня 0.05.
В таблице 7.4 в качестве примера приведены значения расстояний Махаланобиса для первых десяти индивидуальных наблюдений, реально входящих в первую выборку, по отношению к центральным точкам всех трех групп. Можно видеть, что по значениям признаков только наблюдения 1, 4, 5, 7, 8 и 9 имеют наименьшее расстояние Махалано-биса с первой выборкой, к которой они относятся. Эти 6 наблюдений по значениям диск-риминантной функции будут правильно классифицированы как относящиеся к первой группе. В то же самое время, наблюдения 2, 6 и 10 имеют наименьшее расстояние Маха-ланобиса с центром второй выборки. Аналогичным образом, наблюдение 3 имеет
Таблица 7.3. Значения расстояний Махаланобиса, соответствующих им значений F-критерия и P - вероятностей ошибки 1-го рода
Группы | Показатели | ||
Dm1i2 | 3.846 | 2.886 | |
F | 1.932 | 2.381 | |
P | 0.084 | 0.035 | |
Dm1i2 | - | 2.939 | |
F | - | 1.825 | |
P | - | 0.104 |
Таблица 7.4 Индивидуальные расстояния Махаланобиса от центров трех групп для первых десяти наблюдений из первой выборки
Наблюдения | Расстояние до центра 1-й выборки | Расстояние до центра 2-й выборки | Расстояние до центра 3-й выборки |
3.704 | 10.037 | 7.400 | |
11.670 | 6.919 | 7.332 | |
3.716 | 2.895 | 2.850 | |
7.883 | 13.949 | 9.164 | |
7.267 | 14.641 | 15.969 | |
11.451 | 10.262 | 19.945 | |
3.206 | 8.085 | 6.783 | |
8.905 | 12.158 | 12.531 | |
11.498 | 14.239 | 16.468 | |
2.172 | 2.164 | 2.803 |
наименьшее расстояние Махаланобиса с 3 выборкой. Поэтому, эти четыре наблюдения по значениям признаков будут классифицированы неверно.
В таблице 7.5 в качестве примера первых десяти индивидуальных наблюдений приве-дены значения вероятностей, того, что они относятся к каждой из трех сравниваемых групп. Реально все эти наблюдения принадлежат первой выборке. И по данным этой таблицы можно видеть, что только наблюдения 1, 4, 5, 7, 8 и 9 имеют наибольшее зна-чение апостериорной вероятности принадлежности к первой группе, к которой они реаль-но и относятся. Поэтому, их классификация по значениям признаков будет правильной. Остальные четыре наблюдения по оценкам вероятности принадлежности к разным груп-пам будут классифицированы неверно.
В таблице 7.6 приведена таблица, содержащая результаты классификации всех наблю-дений, участвовавших в анализе по значениям системы трех дискриминантных функ-ций. Каждая строка этой таблицы содержит данные результатов классификации отдель-ных наблюдений по значениям их признаков с применением дискриминантных функ-ций. Можно видеть, что вероятность совершить ошибку отнесения, взятого с рассматри-ваемой территории средневекового славянского черепа к одной из трех групп вятичей составляет 26.1 - 38.5% или в среднем - 31.1%. Этот результат не является неожиданнос-тью, так как рассмотренная изменчивость краниологических признаков не характеризует-ся присутствием здесь антропологических различий очень высокого таксономического ранга.
7.12 Как мы видели из приведенного типичного примера дискриминантного анализа, вычисления здесь сводятся к нахождению системы дискриминантных функций и оценке их работоспособности. Как эти возможности могут использоваться в исследовательской практике при необходимости проверки принадлежности той или иной рассматриваемой группы наблюдений к одной из нескольких (k) совокупностей, из которых взяты обу-чающие выборки?
Таблица 7.5. Вероятности того, что индивидуальные наблюдения относятся к трем сравниваемым группам
Наблюдения | Вероятность принадлежности к 1-й выборке | Вероятность принадлежности ко 2-й выборке | Вероятность принадлежности к 3-й выборке |
0.757 | 0.022 | 0.220 | |
0.040 | 0.302 | 0.656 | |
0.204 | 0.213 | 0.582 | |
0.498 | 0.016 | 0.484 | |
0.960 | 0.016 | 0.022 | |
0.438 | 0.549 | 0.011 | |
0.730 | 0.044 | 0.225 | |
0.695 | 0.094 | 0.209 | |
0.752 | 0.132 | 0.115 | |
0.328 | 0.228 | 0.442 |
Прямой путь достижения результата может заключаться в проведении дискриминан-тного анализа по k + 1 выборке, одной из которых является диагносцируемая группа наблюдений, а остальные k являются - обучающими. В результате вычислений можно получить результаты, по которым нетрудно выяснить с какой или с какими обучающими выборками исследуемые наблюдения обнаруживают наибольшее число малых индиви-
Таблица 7.6. Классификационная таблица дискриминантного анализа трех краниологических серий средневековых славян-вятичей
Группа | Процент правильных отнесений | |||
61.53 | ||||
66.66 | ||||
73.91 | ||||
Всего | 68.88 |
дуальных расстояний Махаланобиса и высоких апостериорных вероятностей. Аналогич-ным образом, классификационная таблица может показать, по отношению к каким обуча-ющим выборкам исследуемые данные часто диагносцируются как принадлежащие к ним. Очевидно, именно для этих совокупностей можно будет говорить о наличии очевидного антропологического сходства с изучаемыми данными.
Дата добавления: 2016-02-13; просмотров: 633;