Поиск информации в профессиональных базах данных.
Интенсивное развитие информационно-коммуникационных технологий повлекло за собой лавинообразный рост объемов накапливаемой информации. Рост документальной информации подчиняется закону Мура с небольшой корректировкой, т.е. объем документальной информации удваивается каждые три года.
Большие массивы информации ведут к увеличению затрат на получение доступа к информационным ресурсам и времени работы с ними. Эффективность работы с информационными ресурсами во многом зависит от методов структуризации информации в базах данных, программного обеспечения для работы с большим массивом информации и, конечно, от квалификации специалистов, где большое значение приобретают знания и умения поиска информации.
Одним из преимуществ профессиональных баз данных перед ресурсами Интернет является обработка поступающей информации, включающая разнесение ее по рубрикам, выделение в документах сегментов, таких как автор, заголовок, дата и т.д.
Для повышения эффективности поиска и сокращения затрачиваемого времени разрабатываются различные поисковые инструменты и формы представления информации. Все информационные ресурсы в системе иерархически структурированы, что обеспечивает пользователю дополнительные возможности поиска.
Информация, как правило, расположена в различных библиотеках. Каждая библиотека представляет собой коллекцию источников информации, относящихся к определенной тематике. Каждая библиотека содержит файлы. Файл содержит документы, поступающие от одного или нескольких источников информации. Каждый документ в файле состоит из нескольких частей, которые называются сегментами. Общими сегментами для всех документов являются: название, автор, дата, текст документа. В зависимости от типа документа будет меняться и набор сегментов, из которых состоит сегмент и названия сегментов.
Файлы могут быть либо фактографические или документальные. Выполнение информационного писка возможно либо по тексту, либо при помощи каталога. При полнотекстовом поиске информационная система отыскивает слова в тексте документа, либо в его сегменте, например в заголовках статей и рефератах, перебирая все варианты написания и синонимы. В некоторых системах поисковая программа позволяет вводить набор слов и учитывает некоторые формы слова, например множественное число.
Каталог в информационной системе – это оглавление файлов, составленное по тематическому или региональному признаку, имеющее иерархическую структуру. Полнотекстовый поиск и поиск при помощи каталога не является взаимоисключающими, напротив, наиболее эффективные стратегии поиска получаются при их комбинации.
Несмотря на разнообразие поисковых инструментов, процесс поиска информации можно разбить на четыре этапа.
Формулировка задачи. Цель этого этапа состоит в четком определении информационной потребности. Информационной потребностью может быть определенный документ, например закон или публикация, конкретная информация, или информация, посвященная определенному кругу вопросов. Исходя из формулировки потребностей, выбираются наиболее подходящие методы поиска, а также ключевые слова.
Выбор информационного ресурса. После формулировки информационной задачи необходимо выбрать информационный ресурс, который может содержать неполную информацию. Выбор информационного ресурса ограничивается возможностями получения доступа.
Построение запроса. После того как информационная задача строго сформулирована и выбран информационный ресурс, необходимо составить информационный запрос.
Для документальной информационной системы может быть предложена следующая последовательность действий:
выбрать соответствующую тематическую рубрику;
разбить вопрос на слова, которые следует искать отдельно, а затем объединить их соответствующими логическими операторами (and, or, not), если в системе предусмотрены булевы операции.
Практически во всех информационных системах существует соответствующий язык построения поисковых запросов для проведения поиска слов и выражений по тексту документа. Общими элементами этих языков является булева логика. Она используется тогда, когда поисковый запрос содержит более одного понятия. AND-требует наличия всех терминов, в результате уменьшает число найденных документов, OR-требует наличия в документе хотя бы одного понятия, в результате увеличивает число документов, NOT-требует отсутствия термина, в результате уменьшает число найденных документов.
учесть все варианты написания слов и синонимы при поиске произвольного текста, для чего необходимо использовать соответствующие классификаторы, словари и тезаурусы, что может значительно повысить эффективность запроса.
Оценка результатов поиска является важным этапом информационного поиска. Ее результаты зависят от того, для каких целей будут использованы результаты поиска.
Критерии оценки поиска:
количество найденных документов;
найденные источники информации;
оперативность предоставления информации.
По результатам поиска запрос корректируется. Для достижения наилучшего результата поиска составляется несколько запросов на поиск информации. При поиске информации большое значение имеют знание специалиста инструментов поиска и умение их применять.
Таким образом, информационный поиск представляет собой упорядоченную последовательность действий, для того чтобы отыскать необходимую информацию. Особое внимание стоит уделить вопросам минимизации стоимости получаемой информации от источников. В ряде случаев поиск информации проводится в рамках выделенной для этого суммы. Работая с метаинформацией, возможно предварительно оценить стоимость необходимой информации.
Дата добавления: 2015-03-14; просмотров: 889;