Многомерное нормальное распределение
1.6 Многие статистические методы разработаны в предположении, что распределение рассматриваемого признака имеет нормальную форму. Это обусловлено рядом причин. Во-первых, допущение в своем приближенном виде часто реализуется на практике. Распределения многих скелетных размеров тела у взрослых мужчин и женщин хорошо соответствуют этому типу кривой. Асимметричность распределений многих других антропометрических признаков может быть устранена применением, например, логнормальной трансформации вида Y =
= lg (X + Xo), где Xo вычисляется так, что распределение Y оказывается максимально близким к нормальному виду. Во-вторых, допущение нормальности позволяет разработать разнообразный статистический инструментарий. Наконец, использование модели нормального распределения позволяет значительно уменьшить количество показателей, описывающих свойства изменчивости отдельно взятого признака. Действительно, если изучаемый признак X имеет нормальное распределение, то его дифференциальная функция имеет вид
1 Xi – M 2
-
1 2 s
f(Xi) = e , (1.11)
s (2p)1/2
где Xi - значение признака, являющееся аргументом функции, M и s - его средняя арифметическая величина и среднее квадратическое отклонение, p и e - математические константы. Нетрудно видеть, что в формулу (1.11) входят только два параметра – M и s.
1.7. Обобщением одномерного нормального распределения служит его мно-гомерная форма. Если дан набор m признаков с индивидуальным вектором наблюдений
Xi' = X1i X2i X3i ... Xmi ,
то дифференциальная функция многомерного нормального распределения имеет вид
1
1 - ¾ (Xi - M)' S-1(Xi - M)
f(Xi) = e 2
(2p)m / 2 (ôSô)1/2 (1.12)
где Xi - вектор индивидуальных наблюдений, являющийся аргументом функции, M - вектор средних, S - ковариационная матрица, p и e - математические константы. Нетрудно видеть, что формулы (1.11) и (1.12) - весьма схожи.
В степени числа e в первом случае находится квадрат нормированной формы значения признака, которую можно переписать в виде (X - M) (s2 )-1(X - M), во
- 10 -
Рисунок 1.2. Области значений одного признака (А), сочетаний двух (В) и трех признаков (С), содержащие некоторую долю всех наблюдений
втором - (Xi - M)' S-1(Xi - M) . В многомерном случае значение признака Xi заменено вектором наблюдений Xi, средняя величина M - вектором средних M,дисперсия s2 - ковариационной матрицей S. В знаменателе отношения перед числом e в первом случае находится s - среднее квадратическое отклонение (корень квадратный из дисперсии), в многомерной ситуации - (ôSô)1/2 - корень квадратный из обобщенной дисперсии. Разность (Xi - M), стоящая в показателе степени числа e в формуле (1.12), является вектором
(Xi - M)' = (X1i – M1) (X2i - M2) (X3i – M3) ... (Xmi - Mm) ,
состоящим из отклонений значений отдельных признаков от своих средних арифметических величин. Как можно видеть из раздела А.12. Приложения А, выражение (Xi - M)' S-1(Xi - M) есть скалярная величина, и проблем с вычислением степени числа e не возникает.
1.8 Знание закона распределения некоторого признака позволяет определять количество наблюдений, попадающих в некоторый числовой интервал его значений. Например, в случае одномерного нормального распределения интервал с границами M -1.96s и M + 1.96s включает примерно 95% всех наблюдений в какой-нибудь многочисленной выборке. Иными словами, область изменчивости одного признака, содержащая некоторую долю всех его значений, геометрически может быть изображена отрезком на числовой оси, вдоль которой он измерен (рис.1.2 А).
- 11 -
Аналогичным образом, по сочетанию двух признаков X1 и X2 область плоскости, образованной их осями, которая включает определенную долю всех наблюдений, может быть ограничена так называемым корреляционным эллипсом (рис.1.2 В). Его форма, зависящая от соотношения двух его осей, будет определяться величинами дисперсий двух признаков s12 и s22 и величиной коэффициента корреляции r между ними. Размещение центральной точки корреляционного эллипса на плоскости двух признаков будет зависеть только от средних величин M1 и M2. Этот эллипс образуется множеством точек плоскости, для координат X1i и X2i , каждой из которых выражение
1 X1i-M1 2 X2i-M2 2 X1i-M1 X2i-M2
C2 = + - 2r
1 - r2 s1 s2 s1 s2
характеризуется постоянством своей величины. Легко проверить, что это выражение есть частный двумерный случай для показателя степени (Xi - M)' S-1(Xi - M), но выписанный в обычном алгебраическом виде. Показатель C2 связан с соответствующей ему долей P всех наблюдений, находящихся внутри корреляционного эллипса, соотношением
- c2/2
P = 1 - e .
В ситуации трех признаков, X1, X2 и X3 область трехмерного пространства, образованного их осями, которая включает определенную долю всех наблюдений, окажется ограниченной так называемым трехмерным корреляционным эллипсоидом (рис.1.2 С). Соотношения трех его осей, а следовательно и его форма - будут определяться дисперсиями (s12, s22, s32) и коэффициентами корреляции (r12, r 13, r 23) трех признаков. Координатами его центральной точки в трехмерном пространстве, будут являться средние величины M1, M2 и M3.
Наконец, в общем случае m признаков X1, X2, X3, …, Xm индивидуальные наблюдения разместятся в m-мерном пространстве их осей, которое невозможно изобразить графически. Область, включающая определенную долю P всех наблюдений, будет ограничена m-мерным корреляционным эллипсоидом. Соотношения его m осей определятся структурой ковариационной матрицы S набора признаков, а расположение его центра в m-мерном пространстве, связанном с осями этих m признаков, будет задано вектором средних M.
1.9 Точно так же, как в двумерном случае, многомерный корреляционный эллипсоид может считаться образованным множеством точек m-мерного пространства для наборов координат X1, X2, X3, …, Xm . Для каждой из этих точек будет наблюдаться одна и та же величина дифференциальной функции многомерного нормального распределения (1.12). Это в свою очередь влечет за собой условие размещения точек m-мерного пространства на одном корреляционном эллипсоиде
(Xi - M)' S-1(Xi - M) = const . (1.13)
Иными словами, все векторы индивидуальных наблюдений, для которых будет соблюдаться условие (1.13), окажутся размещенными на некотором корреляционном
- 12 -
эллипсоиде, включающем определенную долю P всех случаев. Эта доля может быть легко определена, так как выражение
c2 = (Xi - M)' S-1(Xi - M) (1.14)
имеет распределение c2 c числом степеней свободы n равным m - числу признаков. В этом случае с использованием таблиц этого распределения или применением соответствующих компьютерных программ можно легко определить какая доля P всего распределения c2 оказывается левее вычисленной по формуле (1.14) величины. Именно P наблюдений оказываются внутри корреляционного эллипсоида, определяемого условием (1.13).
Величина (Xi - M)' S-1(Xi - M) = D2 называется расстоянием Махаланобиса индивидуального вектора наблюдений Xi от центральной точки многомерного корреляционного эллипсоида. Варьируя D2 и соответствующее ему значение доли P, можно получить семейство корреляционных эллипсоидов, различающихся по количеству размещающихся внутри них наблюдений. Например, пусть имеется набор 20 признаков. Тогда по таблицам распределения c2 для числа степеней свободы n = m = 20 можно найти, что корреляционный эллипсоид, включающий P = = 0.5 всех наблюдений, характеризуется уровнем расстояния Махаланобиса до центральной точки равным 19.3. Для эллипсоида, включающего P = 0.95 всех индивидуальных случаев, D2 = 31.4, при P = 0.99 - D2 = 37.6 и при P = 0.999 - D2 =
= 45.3.
1.10. Описанные в предыдущем разделе свойства многомерных корреляционных эллипсоидов могут использоваться в практике биометрических исследований. Если исследователю известны многомерные характеристики некоторой группы населения - вектор средних M и ковариационная матрица S, то можно определить с какой вероятностью P любое встретившееся наблюдение с вектором значений признаков X относится к этой группе. Для определения такого P достаточно по формуле (1.14) вычислить значения расстояния Махаланобиса D2, после чего для распределения c2 с учетом количества признаков как числа степеней свободы n следует найти P как площадь под кривой этого распределения, лежащую левее величины D2.
Подобного рода задача может возникать в следующих ситуациях. Во-первых, некоторые наблюдения могут показаться "выбросами", т.е. содержащими либо ошибочные значения признаков, либо относящимися к крайне девиантным индивидам. Положив условием типичности уровень вероятности P = 0.999, можно определить для него предельную величину расстояния Махаланобиса D2 . Например, для 20 признаков Dо2= 45.3. Тогда любое наблюдение, для которого D2 > Dо2, может считаться "выбросом" и не включаться в дальнейший анализ вместе с остальными более типичными наблюдениями.
Следует заметить, что описанная методика рассмотрения "выбросов" является по существу обобщением широко известного в одномерной статистике правила "трех сигм". Оно основано на том, что внутри числового интервала с границами M - 3s и M + 3s содержится P = 0.997 всех наблюдений нормально распределенного
- 13 -
признака. Многомерная методика, опирающаяся на вычисление расстояния Махаланобиса для корреляционных эллипсоидов позволяет решать такую же задачу для набора нормально распределенных признаков.
Во-вторых, использование корреляционных эллипсоидов может решать те же самые задачи, которые рассматривались с применением двумерных эллипсов, примером чего могут быть исследования эндокранов ископаемых гоминид, проведенные В.И.Кочетковой (1973). Здесь для получения зоны сочетаний значений двух признаков, включающей 50% случаев, характерных для современных людей, строился соответствующий корреляционный эллипс, и на его фоне рассматривались размеры эндокранов различных форм ископаемых гоминид. Свойства многомерных корреляционных эллипсоидов позволяют решать аналогичные задачи при исследованиях в области эволюционной антропологии, но с использованием уже не двух, а - практически любого числа признаков черепа, костей посткраниального скелета, эндокрана и любых иных показателей, для которых наблюдается нормальная форма распределения.
Следует, конечно, помнить о том, что описанная методика использования многомерных корреляционных эллипсоидов может применяться в случае, когда распределение признаков действительно оказывается нормальным. В ситуациях, когда это условие выполняется приблизительно, все найденные с применением этой методики результаты будут также всего лишь приближенными.
Дата добавления: 2016-02-13; просмотров: 1590;