Автоматическое индексирование
Практически с самого начала развития информационного поиска предпринимались попытки автоматизации процедур индексирования. Начало исследованиям по автоматизации индексирования положили работы Г.Луна и П.Баксендейла, а в нашей стране – Д.Г.Лахути. В этой области накоплен большой теоретический и экспериментальный материал. Однако в реальности эти исследования оказались (возможно, на какое-то время) невостребованными. Это связано как со сложностью практической реализации задачи полноценного автоматического индексирования (АИ), так и с общими тенденциями развития документального поиска, а именно – с переходом от дескрипторных языков к вербальным, с поиском по полному тексту с применением средств линейной грамматики и т.д.
Существовали и существуют и практически работающие системы (СКОБКИ, АИДОС, CAS, MEDLINE и др.). Но, как правило, автоматизировались лишь некоторые стороны предметного индексирования, а именно, не связанные с процессом понимания содержания документов.
При АИ используются словарные, морфологические, семантические, прагматические, статистические, межфразовые методы анализа текста. Существующие средства АИ могут быть сгруппированы следующим образом:
Алгоритмы морфологического анализа и соответствующие словари для разделения слов на основы и аффиксы.
Алгоритмы морфологического синтеза и соответствующие словари для порождения канонической формы слова.
Дескрипторный словарь (словарь синонимов), используемый для замены значащих слов именами понятий, каждое из которых представляет класс основ слов, близких по смыслу.
Иерархическая структура понятий (информационно-поисковый тезаурус), позволяющая для данного определенного входа (лексемы) словаря найти более широкие понятия, идя вверх по иерархии, или более узкие, спускаясь вниз.
Методы статистических ассоциаций, применяемые для расчета коэффициентов подобия между словами, основами слов или понятиями, для «вычисления» статистических словосочетаний и базирующиеся на принципе совместной встречаемости этих элементов в предложениях документа.
Методы синтаксического анализа для «вычисления» синтаксических словосочетаний, которые позволяют распознать и использовать в качестве характеристик содержания документа словосочетания, состоящие из нескольких слов или понятий, связанных между собой определенными синтаксическими связями.
Методы распознавания словосочетаний на основе предварительно созданного словаря словосочетаний.
Не касаясь конкретных разработок, кратко остановимся на методах лингвистического анализа, так или иначе присутствующих во всех системах с автоматическим анализом документов. Программы лингвистического анализа всегда начинаются с морфологического анализа, решающего несколько частных задач. Прежде всего, это определение части речи, так как во многих системах, в ПОД включаются лишь существительные и номинативные группы. Эта задача может быть решена упрощенными методами, которые базируются на списках конечных буквосочетаний, характерных для тех или других частей речи (длина буквосочетаний при этом колеблется от одной до пяти букв).
Основная цель морфологического анализа – определение грамматических характеристик словоформ. В настоящее время морфологический анализ основывается, как правило, на словарных методах. При этом используются различные типы словарей и лексико-грамматических списков: словари основ (корней), словоформ, флексий, суффиксов, списки неизменяемых слов, чередований, и т.п. В зависимости от вида основной словарной статьи различают словари словоформ и словари основ. Во втором случае объем словаря значительно меньше, зато увеличивается и усложняется таблица грамматических признаков, сопровождающая каждую основу, включаются дополнительные словари флексий, аффиксов и др. В словаре словоформ словарная статья обычно состоит из самой словоформы, длины словоизменительной основы, возможно, длины словообразовательной основы, признака лексической категории слова и набора грамматических признаков. Слова, принадлежащие нескольким лексическим категориям, могут иметь несколько словарных статей. Если слово имеет несколько толкований, в его словарной статье может использоваться несколько наборов грамматических признаков. При словоизменительном анализе производится отсечение окончаний (квазиокончаний), их сравнение со списком окончаний и проверка их принадлежности к флективному классу выделенной основы. Для повышения точности морфологического анализа в ряде систем проводится еще и словообразовательный анализ. В результате анализа по словарю каждое входное слово получает набор лексических и семантических категорий, а также ряд грамматических характеристик, определяемых функциями слов в контексте и используемых на последующих этапах, в частности, на этапе синтаксического анализа.
Синтаксический анализ в информационно-поисковых системах используется очень ограниченно, как правило, для выделения номинативных синтагм.
Наряду с приписыванием словам документа грамматических характеристик, на этом этапе также может решаться задача морфологической нормализации, т. е., приведения словоформы (всех словоформ одной и той же лексемы) к стандартному (словарному) виду. Это позволяет уменьшить объем инвертированного файла и упростить процедуру сравнения слов при поиске (словоформы поисковых предписаний нормализуются по тем же алгоритмам). При порождении стандартной формы ЛЕ требуется производить учет чередования гласных и согласных в основе. Введение в словарь индексов словообразовательных классов позволяет нормализовать даже те слова, которые отсутствуют в словарях.
Автоматическое индексирование в дескрипторных ИПС, основывающееся на дескрипторных словарях и тезаурусах, называют приписным (или индексированием по тезаурусу). Индексирование, при котором лексический контроль отсутствует и в ПОД включаются ключевые слова непосредственно из документов, называется дериватным (или свободным). Сравнительная оценка различных режимов индексирования с применением тезауруса дается в книге Ю,И.Шемакина. Сегодня большинство работающих ИПС относится к классу вербальных систем бестезаурусного типа, применительно к которым можно говорить о дериватном индексировании либо вообще лишь о подобии индексирования (когда, например, из поисковых файлов исключаются незначащие слова, а все остальные термины документа участвуют в поиске). В обзоре Ф. Ланкастера на основе сравнительных экспериментов делается вывод, что дериватные методы, в том случае когда индексационные термины выбираются из текстов документов, оказались более успешными, чем автоматическое индексированием методом приписывания, когда индексы выбираются из классификационной схемы или тезауруса.
В последнее время проблема АИ в основном решается в рамках создания систем искусственного интеллекта. В информационно-поисковых системах задачи, решаемые подсистемой АИ, решаются в других блоках и другими средствами. Однако проблемы поиска в сети Интернет делают задачу АИ, как для вербальных систем, так и для классификационных, весьма актуальной.
Дата добавления: 2015-03-03; просмотров: 1641;