Полнотекстовые базы данных
Наряду с библиографическим описанием хранится и полный текст документа
форма организации документальной БД. Однако из-за больших размеров информационного массива и недостатка памяти компьютера ее не всегда можно реализовать, учитывая, что к этому массиву памяти необходимо обеспечить быстрый доступ. Именно хранение текста (в полном или сокращенном объеме) дает возможность обеспечить тематический поиск, т. е. по определенной проблеме или определенному вопросу, и в этом важная потребительская ценность таких БД. Наличие текста документа и возможность работы с ним выгодно отличает документальный тип БД, который благодаря указанным особенностям часто называют текстовым.
Если отсутствует возможность хранения полного текста, хранят его краткое содержание. Такие БД называют реферативными. Они по объему значительно меньше полнотекстовых БД, и поэтому их легче осуществить. Однако при создании реферативной БД возникает трудность — подготовка реферата.
Сфера приложения для технологий БД, ориентированных на обработку документальной информации, чрезвычайно широка. Это и управленческие, законодательные, научные документы, печатные издания, рекламные издания, справочники и др.
В настоящее время в связи с возрастанием объема документальной информации, необходимой для принятия эффективных управленческих решений, и возможностями, предоставляемыми новыми компьютерными технологиями, автоматизированные информационно-поисковые системы стали широко использоваться в различных сферах экономики.
По оценкам американских экспертов (фирма Delphi Consulting), в США ежегодно генерируется более 1 млрд страниц документов, а в архивах хранится уже более 1,3 трлн документов, причем поток деловой ин формации чрезвычайно разнообразен по видам ее представления: 27% информации этого потока представлено в электронном виде, хранится и обрабатывается на основе технологий БД (12%- фактографических, 15% — документальных). Оставшиеся около 73% информации традиционно хранятся на бумаге. Организация быстрого и эффективного поиска такой документальной информации становится все более неразрешимой проблемой.
Современные ИПС дают возможность:
- ввести документ, отредактировать его, произвести поиск и сформировать отчетные документы по результатам поиска в формате пользователя;
— хранить в БД документы разного типа (может быть, несколько десятков форматов документов);
— использовать для записи данных поля переменной (нефиксированной) длины;
— обеспечить хранение и работу с несколькими значениями одной характеристики в одном поле;
- реализовать гибкие поисковые функции (при работе с текстом);
- реализовать гибкий генератор отчетов, разработать большое количество форм выходных документов и вносить при необходимости в них изменения. На сегодняшний день на рынке информационных продуктов присутствует множество различного программного обеспечения, предназначенного для работы с текстовой информацией. Можно бесконечно перечислять названия различных ИПС, разработанных за последнее десятилетие для различных областей человеческой деятельности. Это юридические системы — "Кон-сультантПлюс", "Кодекс", "Закон", "Юриус"; медицинские - "Medline" и "Clinical Medicine" (ИПС медико-биологического профиля), Poislndex и "Emergslndex" (полнотекстовые ИПС по ядам и лекарственным препаратам); а также ИПС, предназначенные для работы с базами данных конечного пользователя — "Pro-Cite", "Irbis", "Артефакт", "Alesta Library", "ODB-Text" и др. Все они отличаются друг от друга как набором функциональных возможностей, так и физической peaлизацией. Исходя из разнообразия предлагаемых продуктов, можно предложить две системы классификации.
Первая классификация делит ПО на две категории:
системы, открытые для ввода документов пользователем (так называемые "оболочки"), и закрытые системы, обновляемые только разработчиком по мере необходимости. Ко вторым, как правило, относятся различные справочные информационно-поисковые системы. Такие, например, как правовые ИПС "Консультант Плюс", "Кодекс", "Гарант", "Юриус", "Intralex" и др. Почти все подобные ИПС объединяет то, что в этих системах реализованы функции гипертекста, присутствует мощный поисковый аппарат, одним из достоинств которого является возможность поиска по запросам на языке, близком к естественному, также все эти системы способны обрабатывать нетекстовые виды информации. Но в то же время у них есть существенный не достаток — они не могут пополняться без вмешательства разработчика.
Существует и второй способ классификации систем обработки документальной информации. Он основывается на том, что в настоящее время у разработчиков программных средств доступа к документальным ресурсам сложились два альтернативных подхода к реализации АИПС. Трудно сказать, какой из них возник первым, но один из них состоит в разработке некоторой универсальной программной оболочки, настройку которой на приложения может осуществлять администратор системы или пользователь, без дополнительного программирования. Пакеты прикладных программ (ППП) подобного рода используются для текстового поиска и отличаются от других типов программного обеспечения тем, что они работают со слабо структурируемым и неструктурированным текстом. На этом пути возникли системы типа STAIRS, ISIS и из более современных — Winlrbis. Второй подход состоит в использовании СУБД. Изначально с этой целью использовались реляционные СУБД. в которых реализованы средства индексного поиска для написания более или менее универсальных открытых оболочек АИПС в таких средах. С этой целью используются такие средства, как Clipper, Paradox, FoxPro, Access, Oracle.
Однако все большее число разработчиков пользовательских приложений сталкиваются с тем, что применение реляционных моделей не обеспечивает требования, предъявляемые к скорости обработки запросов, особенно в случае проектирования систем, предназначенных для хранения сложных неструктурированных данных. Поэтому крупнейшие разработчики СУБД стали встраивать в свои продукты поддержку объектной ориентации. Не обошло это веяние и рассматриваемое нами направление разработки документальных И С. В настоящее время объектные СУБД рассматриваются как одно из самых перспективных направлений. Примером такой полнотекстовой документальной системы можно назвать систему ODB-Text, созданную на базе объектной СУБД Jupiter.
Система "ODB Text" — средство коллективной обработки документов и ведения корпоративного архива. В числе возможных приложений можно назвать автоматизацию учета документооборота современного офиса, построение справочно-информационных систем (подобных известным юридическим базам данных), ведение сетевых баз данных, учет кадров, библиографиюODB-Text позволяет эффективно решать ряд проблем, возникающих в современной организации:
— аналитическую обработку данных с целью получения информации для принятия решений;
— интеграцию данных различных форматов и различных программных продуктов;
— доступ к информации из любого места: из локальной сети, посредством удаленного соединения с сервером БД, из Интернета;
— невысокие требования к аппаратным ресурсам;
— надежную защиту корпоративной информации;
— оперативное обновление информации;
— простоту освоения и эксплуатации
Дата добавления: 2017-10-09; просмотров: 2971;