Вербальные ИПЯ
Использование дескрипторных языков предполагает процедуру индексирования – перевода содержания документов с естественного языка на дескрипторный. Индексирование может быть ручным или автоматизированным. В обоих случаях имеются свои проблемы: в первом случае это большие затраты человеческого труда и субъективность индексирования, во втором – нерешенность вопросов компьютерного моделирования интеллектуальных семантических процессов, к каковым, безусловно, относится индексирование. В целях упрощения процедур автоматического индексирования вместо дескрипторных языков часто используются языки, в которых нет лексического контроля. Такие ИПЯ называют бестезауруснымиили вербальными. Часто даже говорят, что в качестве ИПЯ в этом случае используется ЕЯ. На самом деле имеется в виду, что для координатного индексирования в таких ИПС используются слова и словосочетания ЕЯ, содержащиеся в документах и запросах. Фактически мы имеем дело с дескрипторными ИПЯ без фиксированного словаря и без фиксированной парадигматики. А.И.Черный считает, что в этом случае используются два варианта ИПЯ: один – с нулевой нормализацией ключевых слов и словосочетаний естественного языка (для координатного индексирования документов), другой – с большой степенью логической обработки (для избыточного индексирования запросов).
ИПС может рассматриваться как совокупность механизмов смыслоразличения (описание содержания документов и запросов) и смыслоотождествления (сравнение ПОД и ПОЗ). Отказ от индексирования документов и лексического контроля затрудняет выполнение функции смыслоотождествления и, как следствие, ведет к снижению полноты. Поэтому требуется включение компенсационных механизмов в каком-либо другом месте системы. В бестезаурусных ИПС эта проблема решается на стадии составления поисковых предписаний (ПП) путем избыточного индексирования. Там каждому термину из ПП приписываются синонимичные или близкие ему по смыслу термины, в том числе термины, находящиеся с данными в родо-видовых и других парадигматических отношениях, т.е. происходит как бы "развертывание" словарной статьи дескрипторного словаря или тезауруса. Отличие от индексирования в традиционном смысле заключается в том, что исходные ЛЕ запроса и документа здесь никак не "портятся" и что методика индексирования запроса при таком подходе в большей степени и более гибко способна учесть конкретную информационную потребность. В ИПС бестезаурусного типа тезаурус не исключается, но он начинает использоваться, как и тезаурус в лингвистике, в качестве средства для моделирования информационной потребности и смыслового варьирования запросов.
Дата добавления: 2015-03-03; просмотров: 1000;