Метод максимального правдоподобия
6.17 В большинстве методов факторного анализа не учитывается то обстоятельство, что все получаемые результаты относятся к выборке, тогда как интерес представляют результаты, относящиеся к изучаемой генеральной совокупности. Проведение факторного анализа по большим выборкам может до некоторой степени смягчить присутствие этого
- 125 -
недостатка. Другим путем является использование метода максимального правдоподобия, разработанного Д.Лоули и А.Максвеллом (1967) с целью получения способа выделения факторов, учитывающего статистические соображения.
В математической статистике получение на основании эмпирических данных показателей, наилучшим образом характеризующих генеральную совокупность, рассматривается в так называемой теории оценивания. В соответствии с ее основными результатами, числовые характеристики, называемые точечными оценками, должны удовлетворять специальным свойствам: состоятельности, эффективности и несмещенности.
Пусть для описания генерального параметра q по выборке объема N получена оценка t. Она будет называться состоятельной, если при увеличении N ее значение t будет приближаться к величине q. Оценка t будет тем эффективней, чем меньше при определенном N будет ее случайная вариация около значения генерального q. Наконец, оценка t считается несмещенной, если для множества ее значений, полученных по разным выборкам объема N, средняя арифметическая величина будет равна q.
Существует несколько методов, позволяющих по исходным данным получать оценки, обладающими необходимыми свойствами. Одним из них является так называемый метод максимального правдоподобия Р.Фишера. В соответствии с ним строится некоторая специальная функция, в которую входят неизвестные значения оценки (или оценок) и в качестве параметров участвуют эмпирические наблюдения. Она называется функцией правдоподобия. Затем математически определяются условия, при которых эта функция принимает максимальное значение. Эти условия и дают формулы для вычисления искомых максимально правдоподобных оценок.
При проведении факторного анализа по методу максимального правдоподобия элементы матрицы факторного отображения A - нагрузки, находятся как состоятельные и эффективные (хотя и немного смещенные) оценки неизвестных значений, свойственных генеральной совокупности. Одновременно находятся состоятельные и эффективные оценки характерностей, по которым можно найти общности признаков. Максимизация построенной функции правдоподобия приводит к итерационной процедуре, в ходе которой определяются матрицы факторного отображения A и характерностей D. С вычислительными деталями этой процедуры можно ознакомиться по книгам Д.Лоули и А.Макс-велла (1967) и Г.Хармана (1972). Отличительной особенностью этого итерационного процесса является довольно медленное достижение приемлемого по своей точности результата. Поэтому, принятое по умолчанию в большинстве пакетов компьютерных программ число в 50 итераций может оказаться недостаточным, и лучше до запуска вычислительного процесса задать 200-500 повторных циклов.
Факторы максимума правдоподобия ортогональны и их число задается до начала вычислений. Для определения количества факторов можно, также как и для метода минимальных остатков воспользоваться одним из двух приемов. Во-первых, можно провести предварительный анализ по методу главных факторов и при помощи критерия отсеивания Кеттела определить их число. Во-вторых, можно несколько раз провести вычисления, последовательно задавая 2, 3, и т.д. общих факторов, применяя каждый раз специальный статистический критерий достаточности факторного решения, который описан ниже.
- 126 -
6.18В связи с тем, что метод максимального правдоподобия основан на статистическом подходе, здесь возможно обоснованное применение критериев проверки статистических гипотез. Важнейшей из них является гипотеза о том, что выделенные k факторов достаточно хорошо описывают эмпирически найденные коэффициенты корреляции между признаками, а остальные n - k могут считаться избыточными. Для проверки этой гипотезы используется критерий вида
½AA' + D2½
c2 = (N - 1) ln , (6.46)
½R½
в котором сравниваются определители эмпирической корреляционной матрицы R и ее значения AA' + D2, воспроизведенного по факторному решению. Произведение AA' воспроизводит редуцированную матрицу R* с общностями на главной диагонали, D2 - диагональная матрица, включающая значения характерностей всех признаков. Их сумма R* + + D2 соответствует исходной корреляционной матрице. Различия R и AA' + D2 связаны с адекватностью факторного решения - достаточно полным описанием корреляций при-знаков нагрузками из факторного отображения A. В ситуации, когда набор k факторов заведомо достаточен и факторное решение хорошо описывает эмпирические корреляции признаков, критерий (6.46) имеет распределение c2 с числом степеней свободы
n = [(m - k)2 - m - k] . (6.47)
Для данного числа степеней свободы n и выбранного уровня ошибки 1-го рода по таблицам распределения c2 можно найти пороговое значение cо2 . Если c2 < cо2, предположение о достаточности k общих факторов может быть принято и анализ завершен. Если c2 > cо2, можно сделать вывод о том, что число факторов k было определено неверно и их выделение следует повторить, задав перед вычислениями это число как k + 1. Процесс повторных проведений факторизации с увеличением их количества завершается при достижении условия c2 < cо2.
В пакетах компьютерных программ обычно выводятся значения критерия cо2, числа степеней свободы n и соответствующего им уровня ошибки первого рода P. Если P > a (0.05, 0.01, 0.001), предположение о достаточности k выделенных факторов принимает-ся, если P < a - отвергается.
Пример 6.4 Проведем выделение главных факторов по методу максимального правдоподобия для набора 22 размеров тела по выборке 242 женщин. В примере 6.1 при помощи критерия отсеивания Кеттела с последующим рассмотрением остаточных корреляций было найдено, что три общих фактора хорошо описывают эмпирические данные. Поэтому, при вычислениях факторного отображения по методу максимального правдоподобия было также задано три фактора.
В таблице 6.3 приведены результаты использования критерия достаточности (6.46). Можно видеть, что вероятность ошибки 1-го рода при использовании этого критерия меньше обычно применяемого уровня 0.05. Поэтому, можно считать, что предположение о несущественности остальных факторов для описания корреляций признаков не может быть принято.
- 127 -
Таблица 6.3. Применение критерия достаточности трех факторов максимального правдоподобия для 22 размеров тела по выборке 242 женщин.
c2 | n | P | |
Результаты | 59.427 | 0.00 |
При рассмотрении нагрузок на первые два максимально правдоподобных фактора (табл.6.4) можно видеть, что они очень сходны с теми, которые были получены по методам главных факторов и минимальных остатков (табл.6.1- 6.2). Однако, третий максимально правдоподобный фактор имеет иной морфологический смысл. Он противопоставляет обхват груди группе признаков, куда входят продольные размеры ноги и руки и жировые складки, измеренные на конечностях. Первый полярный вариант отличается увеличением длины конечностей и жироотложения на них при относительно уменьшен-ном обхвате груди. Противоположному полюсу третьего фактора соответствует обратная комбинация значений признаков. Таким образом, при параллельном применении к одним и тем же данным трех различных методов факторизации нагрузки на первых двух факторах оказываются сходными, тогда как для третьего - этого сказать нельзя. Следует также заметить, что этот последний фактор описывает в каждом из трех полученных результатов весьма небольшую долю суммарной вариации признаков - около 3.2 - 3.3%. К тому же он имеет величину своего собственного числа меньшую 1 и по критерию Кайзера мог бы не включаться в рассмотрение.
6.19 С методом максимального правдоподобия тесно связан метод канонического факторного анализа С.Рао. Этот метод получения факторного отображения разрабатывался с учетом теории канонических корреляций. Действительно, имеется набор исходных признаков X1, X2, X3, ..., Xm и аналогичный набор факторов f1, f2, f3, ...,fn. Последние должны обнаруживать некоторую коррелированность с первыми, что проявляется в их ненулевых нагрузках. Основная идея заключается в таком нахождении факторов, чтобы их корреляции с исходными признаками были бы максимальными. На достижение этого направлена вычислительная процедура. Иными словами, первый канонический фактор f1 должен обнаруживать максимальные корреляции с исходными признаками, второй такой фактор f2 - должен учитывать вторую по своей важности каноническую корреляцию и т.д.
Таким образом, канонические факторы должны быть наиболее тесно связанными с признаками, тогда как факторы минимальных остатков предназначались для максимально полного описания рассматриваемых корреляций, а главные факторы должны были делать то же самое по отношению к общностям признаков. Наконец, максимально правдоподобные факторы должны быть хорошими статистическими оценками. Несмотря на то, что в основе метода канонического факторного анализа лежат вполне определенные специфические соображения, его вычислительная процедура в конечном итоге оказывается почти той же самой, что и в методе максимального правдоподобия. Иными словами, два этих способа получения факторного отображения дают практически одинаковые результаты и могут по существу считаться одним и тем же методом факторизации, об-
Таблица 6.4. Результаты выделения факторов по методу максимального правдоподобия для 22 размеров тела по выборке 242 женщин.
Признаки | |||
1.Длина корпуса | 0.065 | 0.391 | 0.070 |
2.Длина ноги | 0.176 | 0.732 | 0.349 |
3.Длина руки | 0.197 | 0.730 | 0.298 |
4.Акромиальный диаметр | 0.405 | 0.427 | 0.022 |
5.Тазогребневой диаметр | 0.725 | 0.337 | 0.028 |
6.Обхват груди | 0.944 | 0.100 | -0.208 |
7.Обхват живота | 0.940 | 0.032 | -0.191 |
8.Обхват бедра | 0.889 | -0.037 | 0.123 |
9.Обхват голени | 0.546 | 0.005 | 0.024 |
10.Обхват плеча | 0.889 | -0.029 | -0.049 |
11.Обхват предплечья | 0.801 | 0.104 | 0.032 |
12.Складка под лопаткой | 0.865 | -0.101 | 0.030 |
13.Складка на трицепсе | 0.862 | -0.212 | 0.273 |
14.Складка на бицепсе | 0.812 | -0.217 | 0.126 |
15.Складка на предплечьи | 0.833 | -0.207 | 0.222 |
16.Складка на животе | 0.863 | -0.121 | 0.081 |
17.Складка на бедре | 0.788 | -0.153 | 0.280 |
18.Складка на голени | 0.629 | -0.199 | 0.412 |
19.Ширина локтя | 0.287 | 0.273 | 0.100 |
20.Ширина запястья | 0.330 | 0.371 | -0.017 |
21.Ширина колена | 0.500 | 0.118 | 0.099 |
22.Ширина лодыжки | 0.380 | 0.284 | -0.060 |
Собственное число | 10.259 | 2.077 | 0.737 |
Доля вариации (%) Pi | 46.634 | 9.441 | 3.351 |
Сумма Pi (%) | 46.634 | 56.076 | 59.427 |
ладающим как хорошими статистическими свойствами, так и дающим максимальные нагрузки.
Дата добавления: 2016-02-13; просмотров: 994;