Статистическое группирование

По аналогии со статистической формулировкой задачи распознавания образов при статистическом группировании наблюдаемое множество данных X представляет собой n экспериментальных точек с неизвестной принадлежностью к классам. На первом этапе процесса наблюдения с каждым i-мклассом множества из k классов связывалась известная функция плотности вероятности fi с неизвестными параметрами qi. Например, если функция fi является нормальным распределением, то множество параметров содержит всего два параметра: среднее значение и дисперсию для класса i.На втором этапе выбор точки xдляi-го классаопределяется плотностью вероятностей fi (x/q).

Задача группирования состоит в выборе значений для множеств
P = {pi} и q = {qi}, которые соответствуют данным множества X наилучшим образом. Поскольку с вычислительной точки зрения задача статистической оценки является достаточно сложной, дальнейшее рассмотрение будет ограничено широко используемым примером вычислений, известным как минимизация по критерию хи-квадрат.

Обозначим через число точек из множества X, попадающих в область пространства описаний D, состоящего из r попарно непересекающихся областей . При любых фиксированных значениях P и q ожидаемое число наблюдений в области с учетом попадания точек в нее из областей различных классов равно

(49)

Решение задачи состоит в определении значений P и q, которые минимизируют статистику хи-квадрат, равную

(50)

В некоторых задачах надо найти и значение k. Конкретный способ решения зависит от вида функций плотности вероятностей {fi}. Если не удается получить оценку в замкнутой форме, пробуют каким-то систематическим образом определить различные численные значения параметров. Когда исчерпывающее перечисление параметров также неосуществимо, может оказаться достаточно точной для практических целей процедура графической оценки, выполняемая с помощью ЭВМ.

6.2.2. Метод «k-средних»

Этот метод служит примером прямого адаптивного группирования для независимых классов. При его реализации, как и в задаче распознавания образов, экспериментальные точки упорядочены в последовательность Sx наблюдений x(1), …, x(n) в m-мерном пространстве описаний. Предполагается, что число классов объектов ровно k, каждый класс имеет среднюю точку , а текущее среднее значение корректируется по мере накопления новых данных.

Алгоритм, оценивающий по последовательности Sx, выглядит следующим образом:

1) Вычислить множество начальных оценок, относя к каждому классу одну из первых k точек из последовательности Sx.
В результате получим

2) Отнести предъявляемую точку к группе точек j, для которой расстояние минимально. Неопределенности нивелируются в пользу группы с меньшим индексом.

3) Найти новые оценки средних точек для каждой группы:
если точка к группе j не отнесена, оценка оставляется без изменения; если отнесена к j, то на основе текущего состава группы устанавливается новая оценка средней точки. Пусть – число экспериментальных точек в группе в момент, когда предъявляется i-я экспериментальная точка. Тогда

Математически доказано, что если последовательность Sx построена из выборок, относящихся к k различным распределениям вероятностей, то k оценок будут асимптотически сходиться к средним значениям этих распределений.








Дата добавления: 2016-01-20; просмотров: 539;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.006 сек.