Документальные базы данных

 

Особенности документальных БД. Документальные базы (и, соответственно, документальные информационные системы') построены по иному принципу, неже­ли фактографические, и ориентированы на решение принципиально иного класса задач.

Единицей хранения в таких базах является доку­мент, основная часть которого — неструктурированный текст. Документальная база предназначена для созда­ния, хранения и выдачи по запросам документов, со­держащих требуемую информацию. В ответ на запрос выдается не конкретная информация (как в фактогра­фических системах), а список документов, в определен­ной мере содержащих нужную пользователю информа­цию. Мера соответствия выдачи запросу оценивается релевантностью. Характерным для документальных систем является поиск смысловой (семантической) ин­формации. Примером запроса может быть следующий:выдать статьи, посвященные документальным БД (т. е. содержащие термин "документальные БД").

Поиск смысловой (семантической) информации предполагает сравнение смыслового содержания запроса со смысловым содержанием хранящихся в информаци­онной системе документов. Такая операция возможна только в том случае, когда существует некоторый язык представления информации, позволяющий однозначно описывать смысловое содержание документов и запро­сов. Естественный язык для этой цели не подходит в силу своей многозначности (выражающейся, например, синонимией и полисемией), избыточности (например, возможности перефразировки), высокой сложности и других свойств. Поэтому создают специальные языко­вые средства на основе естественного языка (ЕЯ), ко­торые носят названияинформационно-поисковые языки(ИПЯ).

При наличии такого языкапроцесс функциониро­вания ИС состоит в следующем:

— перевод содержания документа и (или) запроса с естественного языка на ИПЯ (процесс индексиро­вания текстов). В результате индексирования пол­ный текст документа (запроса) заменяется некото­рой характеристикой, кратко отражающей его смыс­ловое содержание. Эта характеристика носит назва­ниепоискового образа документа (ПОД) и (или) поискового образа запроса (ПОЗ). Иногда ПОЗ называют поисковым предписанием (ПП);

— представление ПОД и ПОЗ в машинных кодах (ко­дирование). Часто этот этап выполняют совместно с предыдущим. Организация массивов ПОД и ПОЗ. Обработка элементов этих массивов и представле­ние их в виде, наиболее удобном для поиска;

— поиск информации, т. е. выделение из поискового массива тех документов, содержание которых соот­ветствует поисковому предписанию. Эта операция осу­ществляется в соответствии с некоторым критерием смыслового соответствия поискового образа докумен­та поисковому образу запроса (критерий выдачи);

— выдача пользователю информации, соответствующей отобранным ПОД;

— корректировка запросов или ПП и повторение пре дыдущих этапов. Эта операция выполняется в том случае, если потребитель не удовлетворен работой АИПС, и может производиться либо в пакетном ре­жиме, либо в режиме диалога.

2.1.2.6.3.1.Характеристика информационно-поисковых язы­ков

.

Основными элементами ИПЯ являются алфавит, лексика и грамматика.

Алфавит ИПЯ — система знаков, используемых для записи слов и выражений ИПЯ. Это могут быть буквы русского и (или) английского языка, знаки препина­ния, арабские цифры, любые иные символы.

Лексика, или словарный состав ИПЯ, — совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ. В качестве лекси­ческих единиц ИПЯ могут быть использованы— слова, фрагменты слов, словосочетания и выраже­ния любого естественного языка;

— коды и шифры (цифровые, буквенные, буквенно-цифровые) словосочетаний, слов и выражений, вы­ступающие в роли имен соответствующих классов;

— шифры и коды в сочетании со словами, словосоче­таниями и выражениями.

Существуют различные способы задания словарно­го состава ИПЯ, в том числе:

— перечисление всех лексических единиц ИПЯ;

— перечисление части лексических единиц и задание правил формирования из них других лексических единиц;

— задание правил построения лексических единиц, слов и выражений естественного языка.

Грамматика ИПЯ — совокупность средств и спосо­бов построения, изменения и сочетания лексических еди­ниц. Грамматика включает морфологию и синтаксис. Морфология — совокупность средств и способов построе­ния и изменения слов. Синтаксис — совокупность средств и способов соединения слов в выражения и фразы.

С лексикой и грамматикой связаны два различных аспекта ИПЯ —парадигматика и синтагматика. Они обусловлены двумя видами отношений между словами, которые могут возникать при построении выражений на ИПЯ.

Построение выражений ИПЯ связано с решением, по крайней мере, двух проблем.

Первая из них — выбор слов (лексических единиц) из множества лексических единиц ИПЯ, необходимых для построения выражений. Выбор слов определяется их смысловыми значениями, обусловленными отноше­ниями между предметами и явлениями, которые они определяют. Такие отношения называются парадигма­тическими (это отношения, обусловленные наличием не языковых, а логических связей между предметами и явлениями, обозначенными данными словами). Наибо­лее важны следующие парадигматические отношения — "род — вид" (например, "управленческая докумен­тация— приказ"); родовое понятие всегда включает в себя видовое; — "часть— целое", например " текст— документ".

Вторая проблема построения фраз ИПЯ связана с определением последовательности употребления или написания выбранных слов (словосочетаний). Отноше­ния, устанавливаемые при соединении слов в словосо­четания и фразы, носят название синтагматических от­ношений (это совокупность всех отношений, реализуе­мых синтаксисом ИПЯ). С этой точки зрения синтак­сис представляет собой совокупность способов и средств выражения синтагматических отношений. Простейшим видом синтагматических отношений является отноше­ние вхождения нескольких лексических единиц ИПЯ в один и тот же текст, фрагмент текста, фразу и прочее, т. е. отношение координации. Иногда говорят: ИПЯ без грамматики. Но поскольку ни один ИПЯ не может функционировать без синтаксиса, выражающего син­тагматические отношения между его словами, инфор­мационно-поисковые языки без грамматики фактичес­ки не существуют.

Многообразие используемых в ИПЯ парадигмати­ческих и синтагматических отношений определяет смысловыразительную способность, илисемантическую силуИПЯ.

К ИПЯ предъявляют следующие требования:

1. ИПЯ должен располагать лексико-грамматическими средствами для точного выражения основного содержания (центральной темы или предмета) текста. Это связано с необходимостью представления текстов на семантическом уровне и является обязательной пред­посылкой обеспечения смысловыразительной способно­сти ИПЯ.

2. ИПЯ не должен быть двусмысленным. Любое выражение ИПЯ должно пониматься вполне однознач­но, что связано с необходимостью устранения много­значности, присущей естественному языку и недопустимой для ИПЯ в силу того, что приемником текстов ИПЯ является ЭВМ, а не человек.

3. ИПЯ не должен содержать элементов, отобража­ющих волевое побуждение, эмоции и т.д. Выражение ИПЯ, его значение, смысл не должны зависеть от "на­строения" приемника информации.

4. ИПЯ должен быть удобным для алгоритмизации (чтобы упростить сопоставление поисковых образов документа и запроса).

Типология информационно-поисковых языков. По характеру использования грамматических средств раз­личают прекоординированные и посткоординированные ИПЯ.








Дата добавления: 2017-10-09; просмотров: 5988;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.006 сек.