Информационно-поисковые языки
Центральное место в информационно-поисковой системе занимает информационно-поисковый язык (ИПЯ). Информационно-поисковый
язык — это формальный язык, предназначенный для описания отдельных аспектов плана содержания документов, хранящихся в ИПС, и запроса. Процедура описания документа на ИПЯ называется индексированием. Врезультате индексирования каждому документу приписывается его формальное описание на ИПЯ — поисковый образ документа. Аналогичным образом индексируется и запрос, которому приписывается поисковый образ запроса или поисковое предписание. Алгоритмы информационного поиска основаны на сравнении поискового предписания с поисковым образом запроса. Критерий выдачи документа на запрос может состоять в полном или частичном совпадении ПОЗа документа и ПП. В ряде случаев пользователь имеет возможность сам сформулировать критерии выдачи. Это определяется его информационной потребностью.
Информационно-поисковые языки должны удовлетворять некоторым важным условиям. К ИПЯ предъявляется требование достаточной разрешительнойсилы — способности дифференцировать важные для данной проблемной области семантические различия между документами. На информационно поисковые языки налагается требование однозначности:в записи на ИПЯ недопустима полисемия и омонимия. Кроме того, ИПЯ должен иметь достаточно гибкую структуру, допускающую модификацию — прежде всего в отношении лексических средств ИПЯ.
Информационно-поисковые языки можно классифицировать по разным основаниям. Чаще всего ИПЯ разделяются на языки-классификациии языки дескрипторного типа.Языки-классификации, или языки классификационного типа основываются на иерархических классификациях понятий. Наиболее известна из языков классификационного типа универсальная десятичная классификация (УДК), используемая, например, в библиотечном деле для индексирования книг. По требованиям Книжной палаты на обороте титула каждой книги должен стоять индекс УДК. Наряду с УДК в библиотечном деле применяется также Библиотечно-библиографическая классификация (ББК). Если основы УДК были разработаны еще в 1895-1905 гг. в Международном библиографическом институте под руководством П. Отле и А. Лафонтена, то ББК была создана в СССР с учетом имевшихся тогда представлений о соотношении общественных и естественных наук. Основные проблемы использования языков-классификаций связаны с тем, что они, как правило, ограничены крупными классами (таксонами) понятий и не позволяют выйти на достаточную глубину описания документов и тем самым обеспечить точность индексирования. Кроме того, они не позволяют характеризовать документ с различных точек зрения, что делает невозможным многоаспектное индексирование (см. ниже). И, наконец, иерархические классификации понятий не успевают за научно-техническим прогрессом.
Видом языков классификационного типа можно считать фасетные классификации.Структура языков этого типа предусматривает индексирование документа по нескольким основаниям — фасетам (ср. английское слово facet — «аспект»). Например, газетные и журнальные статьи
Дата добавления: 2016-09-20; просмотров: 883;