Дискриминация для двух групп наблюдений в одномерном случае

7.2 Пусть мы имеем две генеральные совокупности индивидов w₁ и w₂, из которых получены выборки достаточно большого объема. Пусть по этим выборкам вычислены средние арифметические величины признака X, равные M₁ и M₂ и дисперсии s₁² и s₂². Пусть нам известно, что средние величины неравны - M₁ ¹ M₂. Пусть признак распределен нормально, и пусть распределения признака в совокупностях w₁ и w₂ размещены на его оси так, как это показано на рисунке 7.1. Рассмотрим возможности отнесения неко-торого наблюдения к одной из двух совокупностей по одному признаку.

Как это известно из свойств нормального распределения, область значений признака, включающая практически все возможные принадлежащие ему наблюдения, ограничена значениями M_i + ts_i, где t = 3. Если различия средних арифметических величин настолько велики, что выполняется неравенство

M₁ - M₂ > ts₁ + ts₂ (7.1)

при t = 3, то области значений признака в двух распределениях практически не будут пере-секаться. В этом случае нетрудно получить правило, в соответствии с которым можно будет осуществлять дискриминацию, для чего достаточно выбрать некоторое значение признака X_o, которое можно назвать критическим значением дискриминации. Простей-ший способ его получения основан на применении формулы

- 166 -

Рисунок 7.1 Определение критического значения дискриминации X_o и ошибок дискриминации e₁ и e₂

M₁ + M₂

X_o = . (7.2)

Тогда можно построить так называемое решающее дискриминантное правило, которое будет иметь вид:

если X < X_o, то X принадлежит к w₁ (7.3)

если X .³ X_o, то X принадлежит к w₂ .

Однако, условие (1) выполняется весьма редко, и обычно для двух распределений признака имеет место перекрывание их размахов вариации. Поэтому, можно видеть (рис.7.1), что использование построенного решающего правила (7.3) всегда будет сопро-вождаться ошибками (табл.7.1). Так, мы можем отнести индивида, оказывающегося на рисунке 7.1 немного правее критического значения, к совокупности w₂, тогда как он возможно размещается в зоне правого "хвоста" распределения w₁ . Аналогичная ошибка может быть совершена и при отнесении наблюдения из w₂к совокупности w₁ , если оно оказывается правее уровня X_o и располагается в зоне правого «хвоста» соответствующего распределения признака для w₁. Эти возможные ошибки дискриминации и соответствую-щие им вероятности (e₁и e₂) перечислены в таблице 7.1

- 167 -

Таблица 7.1. Ошибки дискриминации в случае двух совокупностей

Объективная ситуация	Субъективное решение
Наблюдение отнесено к w₁	Наблюдение отнесено к w₂
Наблюдение относится к w₁	Верное решение	Ошибка с вероятностью e₁
Наблюдение относится к w₂	Ошибка с вероятностью e₂	Верное решение

Как это видно на рисунке 7.1, вероятность e₁ равна площади под кривой распределе-ния признака X в совокупности w₁, ограниченной слева перпендикуляром, восставлен-ным из критического значения X_o. Аналогичная вероятность e₂ равна площади кривой распределения X в w₂, ограниченной справа тем же перпендикуляром. Согласно свой-ствам нормального распределения эти вероятности можно получить из формул

X_o - M₁

e₁ = 1 - F(t₁) = 1 - F ,

s₁ (7.4)

M₂ - X_o

e₂ = F(t₂) = F ,

s₂

где F(t_i) - интегральная функция нормального распределения. Учитывая, что таблицы этой функции составлены для положительных значений нормированных отклонений при t_i > 0, обе формулы можно переписать как

e_i = 1 - F ½ t_i ½ . (7.5)

7.3 Одним из путей определения критического значения дискриминации X_o является нахождение его по формуле (7.2) X_o = (M₁ + M₂)/2. Этот способ обеспечивает равенство двух вероятностей совершить ошибки e₁ = e₂ в ситуации, когда распределения признака X нормальны и средние квадратические отклонения равны s₁ = s₂. В ситуации, когда последнее условие не выполняется, равенство ошибок дискриминации обеспечит получение критического значения дискриминации по формуле

s₁M₂ + s₂M₁

X_o = . (7.6)

s₁ + s₂

Решающее правило (7.3) не учитывает возможных различий в неодинаковой частоте встречаемости индивидов из совокупностей w₂ к w₁ . Эти частоты могут быть выражены через так называемые априорные вероятности P₁ и P₂ (P₁ + P₂ = 1). Если индивиды из обе-их совокупностей могут встретиться одинаково часто, то P₁ = P₂= 1/2. Если это - не так, то в решающем правиле следует учитывать различия P₁ и P₂. Одной из форм такого учета является так называемое отношение правдоподобия

- 168 -

f₁(X)

l(X) = , (7.7)

f₂(X)

где f₁(X) и f₂(X) - значения дифференциальной функции распределения в 1-й и 2-й сово-купности для величины признака X. Критическое значение этого отношения равно

P₁

l(X_o) = - (7.8)

P₂

отношению априорных вероятностей. Если l(X_i) > l(X_o), то наблюдение X_i относится к w₁, если l(X_i) < l(X_o), то X_i относится к w₂ . Тогда можно выписать решающее правило диск-риминации в следующем виде:

f₁(X_i) P₁

Если l(X_i) = ³ , то X_i принадлежит к w₁ ,

f₂(X_i) P₂ (7.9)

f₁(X_i) P₁

Если l(X_i) = < , то X_i принадлежит к w₂ .

f₂(X_i) P₂

Иногда применяется величина -ln [l(X_i)]. Тогда это решающее правило можно переписать в виде

Если -ln [l(X_i )] > ln (P₁/P₂) то X_i принадлежит к w₁ ,

Если -ln [l(X_i )] < ln (P₁/P₂) то X_i принадлежит к w₂ . (7.10)

Формулы (7.9) и (7.10) описывают так называемый байесовский критерий, минимизи-рующий ошибку дискриминации. Критическое значение X_о можно найти как такую вели-чину признака, где дифференциальные функции двух распределений f₁(X_i ) и f₂(X_i ) соот-носятся так, что выполняется условие

f₁(X_i) P₁

l(X_i) = = = l(X_o) . (7.11)

f₂(X_i) P₂

Если априорные вероятности равны P₁ = P₂ = 1/2, то выражение (7.11) превращается в f₁(X_i) = f₂(X_i) и значение X_o в случае равных дисперсий признака s₁ = s₂ определяется по формуле (7.2). В антропологических исследованиях чаще считается, что априорные вероятности равны.

Дата добавления: 2016-02-13; просмотров: 567;