Содержательные аспекты индексирования
Индексирование – одно из основных понятий информационного поиска. Традиционный документальный поиск основан на использовании поисковых образов документов и запросов. Поисковым образом документа служит составленный по определенным правилам текст, в котором выражена центральная тема или предмет этого документа (запроса) и (частично) сопутствующие ей темы или предметы. Так же создается поисковый образ запроса. Процесс выбора и присвоения документам и запросам или их частям индексов – лексических единиц ИПЯ – называют индексированием. Цель процесса индексирования в информационной системе – приписать каждому документу и запросу некоторое множество «индексов» – идентификаторов, отражающих содержание документа. Идентификаторы называют индексами, рубриками, индексационными терминами, ключевыми словами, дескрипторами, полями и т.д., в зависимости от типа используемого ИПЯ. Эти «индексы» отражают содержание документа и управляют поиском, приводя к тем документам, термины которых оказываются наиболее сходными с терминами запроса.
В соответствии со стандартами под индексированием документов понимаются «процессы описания их смыслового содержания средствами ИПЯ с целью обеспечения высоких показателей их поиска. Итоговая продукция этих процессов содержится в поисковых образах документов (ПОД), каждый их которых представляет собой совокупность характеристик конкретного документа, выраженный в знаках или терминах ИПЯ».
Процесс индексирования, т.е. выбор дескрипторов для включения в ПОД и ПОЗ, определяется специальными инструкциями, называемыми методикой индексирования. Эффективность поиска во многом определяется качеством индексирования, которое зависит как от качества словаря, от методики индексирования, так и от знаний и опыта индексатора. В оценке качества индексирования, как и при поиске, используют показатели полноты (глубины) и точности (детальности) индексирования. Полнота определяется, в первую очередь, количеством дескрипторов, включенных в ПОД (ПОЗ), точность – так сказать, их “качеством”, т.е. смысловой близостью выбранных дескрипторов к основному содержанию документа (запроса). Эти характеристики, так же, как полнота и точность поиска, находятся в отношении обратной зависимости. Для обеспечения полноты индексирования и поиска применяется избыточное индексирование документов или запросов. Под избыточным индексированием понимается дополнение ПОД и ПОЗ дескрипторами, связанными по смыслу с основными.
Процесс индексирования разделяют на несколько более мелких операций, основных и вспомогательных, выполняемых последовательно или одновременно. Число таких операций у разных исследователей и в разных системах может существенно различаться. Так, А.И.Черный и Ю.А. Шемакин указывают на две операции – работу по выделению ключевых слов и нормализацию лексики по тезаурусу. Ф.С.Воройский приводит пять основных операций. Есть методики, где процесс индексирования разбивается на несколько десятков операций, большая часть которых является второстепенными и вспомогательными. Большинство отечественных описаний процесса анализа и индексирования информации базируются на методических указаниях и материалах ВИНИТИ, в соответствии с которыми процесс индексирования включает в себя шесть основных операций:
1) анализ содержания документа и выбор из текста номинативных лексических единиц, существенных с точки зрения его содержания;
2) формирование перечня ключевых слов (морфологически нормализованных ЛЕ), используемых в процессе свободного координатного индексирования;
3) нормализацию ключевых слов по форме и содержанию при помощи словарей ИПЯ, используемых при контролируемом индексировании;
4) избыточное индексирование – введение в ПОД дополнительных ЛЕ, связанных по смыслу с исходными КС и выбираемых из словаря ИПЯ.;
5) введение в ПОД грамматических средств (типа указателей роли и связи);
6) заполнение рабочего листа предмашинного формуляра ПОД и/или его ввод в компьютер.
Иногда в числе операций, имеющих отношение к индексированию, рассматривают или просто упоминают библиографическое описание произведений печати. Это правомерно в той мере, в какой элементы данных библиографических записей используются при проведении поиска информации.
В отечественной информатике широко применяется схема анализа и индексирования информации, представленная в монографии Ю.И.Шемакина. Эта модель индексирования, с теми или иными модификациями и дополнениями, определяющимися спецификой логико-понятийного аппарата предметных областей знания, нашла применение в большом числе ИПС. Процесс индексирования, по Ю.И.Шемакину, должен идти в определенной последовательности и по единой логической схеме, чем обеспечивается унификация описания документов и постоянство (единообразие) индексирования. В схеме анализа информации выделяются следующие обобщенные элементы (смысловые аспекты):
предмет или тема высказывания;
сторона, с которой исследуется предмет или его свойства, признаки, закономерности;
область применения или использования предмета;
конкретный метод исследования;
методика проведения исследования и специальное оборудование, используемое для изучения предмета или его свойств;
условия, при которых проведены исследования предмета.
В цитируемой работе приводится пример индексирования информации с использованием описанной схемы анализа документов.
Понятие «предмет индексирования» у данного автора (и у многих других) интерпретируется весьма широко и без каких-либо содержательных ограничений. «Применительно к документам по научно-технической тематике в качестве предмета исследования (разработки) могут выступать общие и частные понятия, а также любые материальные объекты: изделия, устройства, образцы техники и имущества, виды и системы вооружения». Важнейшее понятие предмета текста относится к области понимания и, как многие явления семантики, не имеет точного определения, хотя и является интуитивно понятным. Отсюда различные и весьма широкие толкования этого термина. В англоязычной литературе по информационному поиску вместо термина предмет (subject) иногда используется термин «aboutness». И этот термин хорошо отражает сущность документального поиска.
Неоднозначность понятия «предмет» относится как информатике, так и к библиотечному делу, где он входит в число базовых понятий. В работе западной исследовательницы М.Бэйтс говорится: «Практически невозможно определить, что значит “предмет документа”, или что следует искать в документе, чтобы идентифицировать его “предмет”... Мы, специалисты по каталогу, обычно видим, что этому, самому важному в практике предметизатора навыку обучают в таких маловразумительных выражениях как: “ищите основную тему документа”». Приведем еще один вариант определения из отечественной литературы: «Предмет произведения печати, это понятие в узкоспециальном смысле, означает тему, которой в основном, непосредственно посвящено произведение».
В зарубежных работах по библиотековедению и информатике для определения сущности понятия “предмет документа” часто используется теория Т. ван Дейка. По ван Дейку восприятие текста – это акт когнитивной редукции (компрессии). Этот акт состоит в опускании информации, менее значимой для читающего, которое продолжается до тех пор, пока важная информация не будет приведена в такое состояние, что ее можно сохранить в памяти. Результатом этого процесса и будет тема, предмет, содержание документа. Во многих отечественных источниках, в частности, в работах Л.В.Сахарного, В.П.Леонова, Д.И.Блюменау также показано, что понятие “предмет документа” связано с процессом свертывания и развертывания информации.
Предметное индексирование должно отражать особенности пользователей фонда документов и их требований к информации. Также в поисковые образы, наряду с содержательными, могут входить и формальные характеристики документов (автор, дата создания, регион, тип данных и т.п.)
В методиках индексирования и в исследованиях делались попытки структурировать ПОД и тем самым выделить составные части понятия «предмет индексирования». Так, Ю.И.Шемакин, развивая выделенные им аспекты индексационной схемы, пишет: «Первые три смысловых аспекта поискового образа отражают информацию, касающуюся предмета исследования, остальные характеризуют сам процесс исследования». Таким образом, получается, что, с одной стороны, предмет индексирования информации – это ключевое слово или понятие, выражающее в обрабатываемом документе предмет исследования, а с другой стороны, сложный предикат, сочетающий, по крайней мере, три смысловые компоненты: предмет – сторона его рассмотрения – область применения. Последняя интерпретация хорошо согласуется с некоторыми положениями лингвистики текста, например, с характеристикой темы дискурса (связного текста) у Т. ван Дейка – тема есть пропозиция, а не просто отдельный концепт, из чего вытекают некоторые общие положения моделей анализа содержания документов.
Стороны рассмотрения предметов представлены, как правило, лексикой с процессуальным значением, как, например, производство, эксплуатация, применение, автоматизация и т.п. или терминами с обобщенным значением типа технические требования, стоимость.
В качестве области применения предмета выступают любые другие предметы или целые предметные области, отрасли хозяйства, военные операции и другие процессы и операции, рассматриваемые как применения предметов исследования и разработки.
Индексирование запросов имеет свою специфику и обычно рассматривается как составная часть общего процесса составления и отладки поисковых предписаний (см. раздел 2.4 «Языки запросов»).
В современных системах ручное интеллектуальное индексирование документов, как правило, уже не применяется, и поэтому многие проблемы индексирования документов ключевыми словами в документальных ИПС, равно как и проблемы создания и применения тезаурусов, в настоящее время как бы ушли на периферию исследований. Однако это не отменяет их значимости с точки зрения поиска в целом как интеллектуальной семантической задачи.
Часто индексированием называют составление файла инвертированного списка, в котором каждому термину индексирования ставится в соответствие список документов, в которых он встречается. Такая процедура является только частным случаем, а точнее, техническим аспектом создания поискового аппарата ИПС.
Дата добавления: 2015-03-03; просмотров: 1231;