Системы индексирования
Система индексирования (СИ) — совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ.
Рассмотрим классификацию систем индексирования.
1. По степени автоматизации процесса индексирования выделяют системы:
• ручного индексирования;
• автоматического индексирования;
• автоматизированного индексирования.
2. По степени контролируемости различают системы:
• без словаря;
• с жестким словарем;
• со свободным словарем.
3. По характеру алгоритма отбора слов текста выделяют системы:
• с последовательным просмотром текста (отбираются все полнозначные слова);
• с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);
• со статистическими процедурами выбора слов (отбираются
только информативные слова в соответствии с распределением частот их употребления).
4. По характеру лексикографического контроля различают системы:
• без лексикографического контроля;
• с полным контролем;
• с промежуточным контролем.
Лексикографический контроль предусматривает:
• устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;
• нормализацию слов на основе морфологических нормативных
словарей.
5. По характеру морфологического анализа слов различают системы:
• с использованием морфологических словарей;
• с использованием основных лексических словарей;
• с использованием морфологического анализа с усечением слов.
Возможны системы индексирования без морфологического анализа.
Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.
Процесс полусвободного индексирования аналогичен вышеописанному, но слова для ПОД берутся только из словаря.
При жестком индексировании слова берутся только из текста.
Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.
Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса — прямой и инвертированный.
Прямой тип индекса строится по схеме «документ—термины». Поисковое пространство в этом случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.
Инвертированный тип индекса строится по обратной схеме — «термин—документы». Поисковое пространство соответственно представлено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в этом случае являются столбцы матрицы.
Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).
Дата добавления: 2016-05-25; просмотров: 2005;