Документальные базы данных
Особенности документальных БД. Документальные базы (и, соответственно, документальные информационные системы') построены по иному принципу, нежели фактографические, и ориентированы на решение принципиально иного класса задач.
Единицей хранения в таких базах является документ, основная часть которого — неструктурированный текст. Документальная база предназначена для создания, хранения и выдачи по запросам документов, содержащих требуемую информацию. В ответ на запрос выдается не конкретная информация (как в фактографических системах), а список документов, в определенной мере содержащих нужную пользователю информацию. Мера соответствия выдачи запросу оценивается релевантностью. Характерным для документальных систем является поиск смысловой (семантической) информации. Примером запроса может быть следующий:выдать статьи, посвященные документальным БД (т. е. содержащие термин "документальные БД").
Поиск смысловой (семантической) информации предполагает сравнение смыслового содержания запроса со смысловым содержанием хранящихся в информационной системе документов. Такая операция возможна только в том случае, когда существует некоторый язык представления информации, позволяющий однозначно описывать смысловое содержание документов и запросов. Естественный язык для этой цели не подходит в силу своей многозначности (выражающейся, например, синонимией и полисемией), избыточности (например, возможности перефразировки), высокой сложности и других свойств. Поэтому создают специальные языковые средства на основе естественного языка (ЕЯ), которые носят названияинформационно-поисковые языки(ИПЯ).
При наличии такого языкапроцесс функционирования ИС состоит в следующем:
— перевод содержания документа и (или) запроса с естественного языка на ИПЯ (процесс индексирования текстов). В результате индексирования полный текст документа (запроса) заменяется некоторой характеристикой, кратко отражающей его смысловое содержание. Эта характеристика носит названиепоискового образа документа (ПОД) и (или) поискового образа запроса (ПОЗ). Иногда ПОЗ называют поисковым предписанием (ПП);
— представление ПОД и ПОЗ в машинных кодах (кодирование). Часто этот этап выполняют совместно с предыдущим. Организация массивов ПОД и ПОЗ. Обработка элементов этих массивов и представление их в виде, наиболее удобном для поиска;
— поиск информации, т. е. выделение из поискового массива тех документов, содержание которых соответствует поисковому предписанию. Эта операция осуществляется в соответствии с некоторым критерием смыслового соответствия поискового образа документа поисковому образу запроса (критерий выдачи);
— выдача пользователю информации, соответствующей отобранным ПОД;
— корректировка запросов или ПП и повторение пре дыдущих этапов. Эта операция выполняется в том случае, если потребитель не удовлетворен работой АИПС, и может производиться либо в пакетном режиме, либо в режиме диалога.
2.1.2.6.3.1.Характеристика информационно-поисковых языков
.
Основными элементами ИПЯ являются алфавит, лексика и грамматика.
Алфавит ИПЯ — система знаков, используемых для записи слов и выражений ИПЯ. Это могут быть буквы русского и (или) английского языка, знаки препинания, арабские цифры, любые иные символы.
Лексика, или словарный состав ИПЯ, — совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ. В качестве лексических единиц ИПЯ могут быть использованы— слова, фрагменты слов, словосочетания и выражения любого естественного языка;
— коды и шифры (цифровые, буквенные, буквенно-цифровые) словосочетаний, слов и выражений, выступающие в роли имен соответствующих классов;
— шифры и коды в сочетании со словами, словосочетаниями и выражениями.
Существуют различные способы задания словарного состава ИПЯ, в том числе:
— перечисление всех лексических единиц ИПЯ;
— перечисление части лексических единиц и задание правил формирования из них других лексических единиц;
— задание правил построения лексических единиц, слов и выражений естественного языка.
Грамматика ИПЯ — совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает морфологию и синтаксис. Морфология — совокупность средств и способов построения и изменения слов. Синтаксис — совокупность средств и способов соединения слов в выражения и фразы.
С лексикой и грамматикой связаны два различных аспекта ИПЯ —парадигматика и синтагматика. Они обусловлены двумя видами отношений между словами, которые могут возникать при построении выражений на ИПЯ.
Построение выражений ИПЯ связано с решением, по крайней мере, двух проблем.
Первая из них — выбор слов (лексических единиц) из множества лексических единиц ИПЯ, необходимых для построения выражений. Выбор слов определяется их смысловыми значениями, обусловленными отношениями между предметами и явлениями, которые они определяют. Такие отношения называются парадигматическими (это отношения, обусловленные наличием не языковых, а логических связей между предметами и явлениями, обозначенными данными словами). Наиболее важны следующие парадигматические отношения — "род — вид" (например, "управленческая документация— приказ"); родовое понятие всегда включает в себя видовое; — "часть— целое", например " текст— документ".
Вторая проблема построения фраз ИПЯ связана с определением последовательности употребления или написания выбранных слов (словосочетаний). Отношения, устанавливаемые при соединении слов в словосочетания и фразы, носят название синтагматических отношений (это совокупность всех отношений, реализуемых синтаксисом ИПЯ). С этой точки зрения синтаксис представляет собой совокупность способов и средств выражения синтагматических отношений. Простейшим видом синтагматических отношений является отношение вхождения нескольких лексических единиц ИПЯ в один и тот же текст, фрагмент текста, фразу и прочее, т. е. отношение координации. Иногда говорят: ИПЯ без грамматики. Но поскольку ни один ИПЯ не может функционировать без синтаксиса, выражающего синтагматические отношения между его словами, информационно-поисковые языки без грамматики фактически не существуют.
Многообразие используемых в ИПЯ парадигматических и синтагматических отношений определяет смысловыразительную способность, илисемантическую силуИПЯ.
К ИПЯ предъявляют следующие требования:
1. ИПЯ должен располагать лексико-грамматическими средствами для точного выражения основного содержания (центральной темы или предмета) текста. Это связано с необходимостью представления текстов на семантическом уровне и является обязательной предпосылкой обеспечения смысловыразительной способности ИПЯ.
2. ИПЯ не должен быть двусмысленным. Любое выражение ИПЯ должно пониматься вполне однозначно, что связано с необходимостью устранения многозначности, присущей естественному языку и недопустимой для ИПЯ в силу того, что приемником текстов ИПЯ является ЭВМ, а не человек.
3. ИПЯ не должен содержать элементов, отображающих волевое побуждение, эмоции и т.д. Выражение ИПЯ, его значение, смысл не должны зависеть от "настроения" приемника информации.
4. ИПЯ должен быть удобным для алгоритмизации (чтобы упростить сопоставление поисковых образов документа и запроса).
Типология информационно-поисковых языков. По характеру использования грамматических средств различают прекоординированные и посткоординированные ИПЯ.
Дата добавления: 2017-10-09; просмотров: 6099;