Глава 9. ГРАММАТИЧЕСКАЯ КЛАССИФИКАЦИЯ ОБРАЗОВ
Специфика лингвистических задач классификации состоит в том, что в них принадлежность объекта к тому или иному классу определяется не булевой комбинацией наличия или отсутствия признаков, а соотношением (возможно, сложным) между составными элементами объекта. Лингвистический подход к анализу образов используется для создания программно-аппаратного обеспечения вычислительной машины, способной распознавать правильно построенные выражения (предложения в виде цепочки символов) на языке, определяемом порождающей грамматикой [1]. Задачи классификации цепочек не содержат формулировок на языке классификации векторов. Введем следующие обозначения: грамматика, порождаемый ею язык; множество терминальных символов, используемых грамматикой ; x – цепочка терминальных символов и T* множество всех цепочек, которые можно построить из множества T.
Лингвистическая классификация образов (распознавание языка) состоит в том, чтобы за конечное число шагов выяснить, принадлежит ли произвольная цепочка множеству или дизъюнкции – логическому суммированию отрицаний. При построении алгоритма, который позволяет это установить, множество называют рекурсивным, а грамматику – разрешимой.
В отличие от векторной классификации более общий подход в распознавании образов обеспечивает классификация цепочек. Поскольку векторы представляют собой цепочки конечной длины, а также существует предел разрешимости двух точек в пространстве, их можно описать с помощью некоторой порождающей грамматики. Поскольку каждому классу принадлежит только конечное число векторов, «язык», соответствующий векторам некоторого подпространства евклидова пространства описаний, можно рассматривать как конечный язык, т. е. содержащий только конечное число цепочек.
Процесс лингвистической классификации характеризуется участием большего количества информации о структуре рассматриваемой цепочки. Важную роль структуры можно показать на примере из естественного языка при рассмотрении эквивалентности следующих цепочек:
Любит Мери Джон.
Джон любит Мери.
Мери любит Джона.
Джон любим Мери.
Очевидно, что только две последние цепочки имеют одинаковое значение. Первая цепочка не является грамотным предложением. Вторая, третья и четвертая – грамотные предложения, но в структуре второй акцент сделан на любви Джона, в то время как в структуре третьей и четвертой – на любви Мери. Следовательно, при использовании данных предложений в задаче классификации необходимо раскрытие структурных отношений между компонентами.
С точки зрения решения проблем структурной классификации интересно было бы построить вычислительную систему, которая могла бы распознавать устную речь. Сложность построения такой машины определяется тем, что при распознавании речи необходимо исследовать структуру акустического сигнала, его эмоциональную окраску и смысловое содержание.
В задаче распознавания образов на основе применения лингвистических методов, которую принято называть грамматическим выводом, входными данными служит множество цепочек. Каждая из этих цепочек считается порожденной некоторой неизвестной грамматикой или не согласующейся с нею и рассматривается как описания определенных объектов из внешней среды, которые были сгруппированы по неизвестному природному закону. Сказанное можно проиллюстрировать примером регистрации пузырьковой камерой потока ядерных частиц. Если бы удалось определить множество информационных цепочек, пригодных для описания треков в пузырьковой камере, и раскрыть порождающую эти цепочки грамматику, то, возможно, ее правила можно было бы использовать для формирования знаний об исследуемых физических процессах.
Рассмотрим теперь пример с утверждениями политического содержания.
Бедняки должны получать поддержку правительства. Те, кто
отказывается работать, не должны получать поддержки
правительства.
Если попросить какого-либо человека отобрать цепочки по утверждениям, с которыми он согласен и с которыми не согласен, то по результатам этого опроса можно в определенной мере создать представление о его политических воззрениях. В процессе отбора испытуемый в соответствии со своими политическими убеждениями пользуется некоторой (предполагаемой) грамматикой и устанавливает множества принятых и отвергнутых цепочек.
Приведенные примеры иллюстрируют причины, по которым необходимо изучать грамматический вывод как совокупность правил объяснения тех или иных наблюдаемых явлений или процессов. До настоящего времени, однако, с помощью грамматического вывода не было получено особо полезных результатов, поэтому далее остановимся на том, что известно и как его можно применять.
Дата добавления: 2016-01-20; просмотров: 600;