Информационное свертывание документов
Вид информационного свертывания | Результат информационного свертывания |
Составление библиографического описания – выявление и фиксация но установленным правилам библиографических сведений о документе, необходимых и достаточных для его идентификации и обшей характеристики | Библиографическое описание |
Индексирование – выражение содержания документа или информационного запроса на информационно-поисковом языке | Классификационный(ые) индекс(ы). Предметная(ые) рубрика(и). Ключевое(ые) слово(а). Дескрипторе(ы) |
Аннотирование – составление краткой характеристики документа с точки зрения его назначения, содержания, вида, формы и других особенностей | Аннотация |
Реферирование – краткое точное изложение содержания документа, включающее основные фактические сведения и выводы, без дополнительной интерпретации и критической оценки | Реферат. Экспресс-информация |
Фактографическое свертывание – выделение (экстрагирование) наиболее информативных фрагментов текста с целью безоценочного изложения отдельных фактов и концепций | Фактографическая справка. Справочная статья. Таблица. Дайджест. |
Конспектирование – письменное изложение основного содержания текста или выступления | Конспект. Протокол. Стенограмма |
Обзорно-аналитическая деятельность – обобщенная, интерпретированная характеристика какого-либо вопроса (темы, проблемы), подготовленная на основе анализа и синтеза информации, извлеченной из некоторого множества отобранных для этой цели документов | Аналитическая справка. Библиографический обзор. Реферативный обзор. Аналитический обзор. |
Свертывание информации обеспечивают следующие методы ее обработки:
- выделение ключевых (несущих основную смысловую нагрузку) слов;
- перефразирование – изменение текста в сторону сокращения его объема;
- групповая характеристика документов, близких по содержанию или формальным признакам;
- экстрагирование – извлечение из текста наиболее информативных фрагментов;
- кодирование – выражение содержания информации при помощи условных обозначений (кодов, индексов, рубрик, искусственных информационно-поисковых языков) и др.
Если правила преобразования информации строго формализованы и разработан алгоритм их реализации, то появляется возможность автоматизировать процесс обработки информации. Автоматизированная обработка информации основывается на том, что преобразование информации по формальным правилам не подразумевает ее осмысления: форма документа (его лексика, грамматика, структура) позволяет отыскивать элементы, выражающие смысл, содержание информационного сообщения.
Идея автоматизированного свертывания текстовой информации базируется на наблюдении, что для каждого документа ключевые слова, наиболее часто встречающиеся в тексте, несут основную смысловую нагрузку, используются для передачи авторской мысли. Разработаны количественные методы оценки семантической значимости отдельных предложений в тексте. Первый из них предполагает количественную оценку семантической значимости отдельных предложений для передачи смысла (основной идеи) текста:
,
где V – значимость предложения; Nj – число значимых (специфичных для данной предметной области) слов в этом предложении; N – общее число слов впредложении.
Если отбирать наиболее значимые предложения и включать их в квазиреферат (мнимый реферат), то появится возможность «свернуть» текст до оптимального минимума, устранив избыточную информацию, и с достаточной степенью информативности передать его основное содержание.
Второй метод измерения количества информации, содержащегося в каждом из предложений, базируется на гипотезе: чем более важным является для некоторого текста тот или иной термин, тем чаще он встречается в нем. Необходимо произвести частотный анализ текста для определения частоты встречаемости в нем наиболее значимых терминов и понятий. В квазиреферат отбираются те предложения, которые содержат наибольшее количество терминов, чаще других повторяющихся в данном документе.
Аналогичные методы приемлемы и для автоматизированного аннотирования.
Автоматическое индексирование предполагает наличие электронных словарей (основ слов, окончаний и др.), образующих лексический аппарат свертывания и классификационных таблиц. Проводится морфологический анализ текста (или его реферата). Наиболее информативные для данной предметной области слова и словосочетания переводятся на информационно-поисковый язык.
Придание тексту новых качественных и формальных характеристик обеспечивают такие виды переработки информации, как:
- преобразование линейных текстов в гипертекст;
- перевод текста на другой язык;
- редактирование и др.
Например, в процессе редактирования происходит преобразование его содержания – литературное редактирование (корректировка текста, нормализация лексики, нормализация стиля, унификация структуры документа) и формы – техническое редактирование (определение форматов страниц, размещение текстовых блоков, выбор шрифтов для различных элементов документа, создание макета документа для полиграфического воспроизведения).
Компьютерные технологии востребованы при создании гипертекстовых документов, в системах машинного перевода, в редакционной практике (автоматическая рубрикация, форматирование, разметка текста и т. п.).
Для содержательной обработки данных используют различные методы анализа и синтеза информации: числовые расчеты; группировка; систематизация; ранжирование; сравнительно-сопоставительный анализ; обобщение; табличное и графическое представление данных и др.
5.6. ХРАНЕНИЕ ИНФОРМАЦИИ
Хранение информации – процесс обеспечения сохранности документов или данных, удовлетворительного состояния материального носителя, защиты от несанкционированного доступа и недозволенного использования.
Потребность в хранении информации зародилась вместе с человеческой цивилизацией. Исторически первоначальным хранилищем информации является память человека. Первые общественные хранилища информации – библиотеки и архивы – возникли с появлением первых форм документной информации – рукописей и рукописных книг. Сегодня, помимо библиотек и архивов, сохранность документов, «материализованного» в них общественного культурного достояния обеспечивают книжные палаты, видеотеки, фильмотеки, фонотеки, архивы, патентные бюро, музеи, картинные галереи, медиатеки, депозитарии. Все большее распространение получают хранилища компьютерной информации: базы и банки данных, базы знаний, автоматизированные информационно-поисковые системы, электронные библиотеки.
Хранение информации – это процесс передачи информации во времени, связанный с обеспечением неизменности состояний материального носителя. Для осуществления хранения информационная система должна воспринятую и, возможно, переработанную информацию преобразовать в физическое явление, т. е. занести на соответствующий носитель.
Носитель информации – материальный объект, содержащий информацию в зафиксированном виде и специально предназначенный для ее передачи во времени, т. е. хранения.
Носителями информации могут быть:
- объекты в неживой природе: система твердых тел, система жидкостей, носители информации в газообразных системах и во Вселенной;
- объекты в живой природе: в микромире, растительном мире, в мире животных;
- организм человека: нервная система человека (носители – отдельные структуры нервных клеток), физиологическая, психологическая система;
- объекты в социальной природе: персонал, организационные единицы (научные, производственные и т. п. организации), документы, символы, знаки, информационные системы, технологии и сети.
Носитель должен, с одной стороны, обладать легкостью изменения структуры при занесении на нее информации, подлежащей хранению, а с другой – устойчивостью к разрушению. Очевидно, что эти два свойства являются взаимоисключающими.
В социальной среде (обществе) различают носители для оперативного и долговременного хранения информации в соответствии с минимальным временем от момента занесения информации на носитель до ее обесценивания. Однако, точное время, когда информация обесценится полностью, неизвестно. Иногда информация, занесенная одним субъектом и в определенный момент времени, теряющая свое значение для него, приобретает значительную ценность для других субъектов.
В настоящее время наиболее распространенным носителем информации является бумага. Ее распространенность объясняется дешевизной и легкостью изменения отражательной способности поверхности. Воздействуя на бумагу различными красителями, можно заносить на нее любую графическую информацию – от текстов до многоцветных репродукций картин. Бумага является носителем с низкой стойкостью к различным природным факторам. Например, при повышенной влажности бумага разбухает и плесневеет, при пониженной – высыхает и ломается, она легко возгорается, обесцвечивается. Поэтому необходимо принимать меры к ее сохранности.
Рассмотрим различные виды носителей информации. В вычислительной технике принято выделять носители, предназначенные для использования человеком и машинные. Носители, предназначенные для использования человеком, могут быть «считаны» визуально или при наличии специальных преобразователей с помощью органов слуха.
Машинные носители различаются по материалу (бумажные, пластмассовые, металлические, комбинированные), по принципу изменения структуры (оптические, фотооптические, магнитные, полупроводниковые, диэлектрические, перфорационные), по методу считывания (контактные, оптические, магнитные, электрические).
С точки зрения применения различают носители с возможностью прямого доступа и с последовательным доступом. Носители второго типа являются обычно квазиодномерными, т. е. для того чтобы найти какую-то запись, хранящуюся на носителе, надо обязательно «просмотреть» все предыдущие записи. Типичный пример – магнитная лента. Носители с возможностью прямого доступа являются, как правило, многомерными, т. е. местоположение нужной записи на них задается не одной, а несколькими координатами.
Одним из важнейших критериев при выборе машинного носителя является его удельная емкость (количество информации, записанной в единице объема, на единице площади или длины). Этот параметр оказывает влияние не только на габариты носителя, но и на время доступа к нужной записи.
Свойство носителя информации, которое позволяет реализовать функции хранения информации, многократного ее использования, представления и воспроизведения информации называют памятью. Часто под памятью понимают запоминающее устройство, хранящее информацию.
Для реализации информационного процесса, связанного с хранением больших объемов информации, важное значение имеют такие характеристики запоминающих устройств, как емкость памяти, время доступа и плотность записи.
Емкостью памяти называют общую накопительную способность запоминающих устройств в единицах количества информации, обычно в алфавитно-цифровых знаках или байтах.
Временем доступа называют промежуток времени между поступлением в запоминающее устройство запроса на считывание или запись определенной информации и его /выполнением.
Плотность записи – это количество элементов носителя (каждый из которых используется для размещения одного бита информации) в единице объема, площади или длины (соответственно размерность бит/мм3, бит/мм2 или бит/мм). Чаще всего повышение плотности записи означает уменьшение стоимости носителя, отнесенной к биту.
Обычно, чем больше емкость запоминающего устройства, тем больше и время доступа.
Хранение и накопление информации вызвано многократным использованием, применением условно-постоянной, справочной и других видов информации, необходимостью комплектации первичных данных до их обработки. Назначение технологического процесса накопления данных состоит в создании, хранении и поддержании в актуальном состоянии информационного фонда, необходимого для выполнения функциональных задач системы управления. Хранение и накопление информации осуществляется в информационных базах, на машинных носителях в виде информационных массивов, где данные располагаются по установленному в процессе проектирования порядку.
Указанные функции, выполняемые в процессе накопления данных, реализуются по алгоритмам, разработанным на основе соответствующих математических моделей.
Процесс накопления данных состоит из ряда основных процедур, таких как выбор хранимых данных, хранение данных, их актуализация и извлечение.
Информационный фонд систем управления должен формироваться на основе принципов необходимой полноты и минимальной избыточности хранимой информации. Эти принципы реализуются процедурой выбора хранимых данных, в процессе выполнения которой производится анализ циркулирующих в системе данных, и на основе их группировки на входные, промежуточные и выходные определяется состав хранимых данных. Входные данные – это данные, получаемые из первичной информации и создающие информационный образ предметной области. Они подлежат хранению в первую очередь. Промежуточные данные – это данные, формирующиеся из других данных при алгоритмических преобразованиях. Как правило, они не хранятся, но накладывают ограничения на емкость оперативной памяти компьютера. Выходные данные являются результатом обработки первичных (входных) данных по соответствующей модели, они входят в состав управляющего информационного потока своего уровня и подлежат хранению в определенном временном интервале. Вообще, данные имеют свой жизненный цикл существования, который фактически и отображается в процедурах процесса накопления.
Процедура хранения состоит в том, чтобы сформировать и поддерживать структуру хранения данных в памяти ЭВМ. Современные структуры хранения данных должны быть независимы от программ, использующих эти данные, и реализовывать вышеуказанные принципы (полнота и минимальная избыточность). Такие структуры получили название баз данных. Осуществление процедур создания структуры хранения (базы данных), актуализации, извлечения и удаления данных производится с помощью специальных программ, называемых системами управления базами данных.
В процессе накопления данных важной процедурой является их актуализация. Под актуализацией понимается поддержание хранимых данных на уровне, соответствующем информационным потребностям решаемых задач в системе, где организована информационная технология. Актуализация данных осуществляется с помощью операций добавления новых данных к уже хранимым, корректировки (изменения значений или элементов структур) данных и их уничтожения, если данные устарели и уже не могут быть использованы при решении функциональных задач системы.
Процедура извлечения данных из базы необходима для пересылки требуемых данных либо для преобразования, или для отображения, а также для передачи по вычислительной сети.
При выполнении процедур актуализации и извлечения обязательно выполняются операции поиска данных по заданным признакам и их сортировки, состоящие в изменении порядка расположения данных при хранении или извлечении.
На логическом уровне все процедуры процесса накопления должны быть формализованы, что отображается в математических и алгоритмических моделях этих процедур.
Модель накопления данных формализует описание информационной базы, которая в компьютерном виде представляется базой данных. Процесс перехода от информационного (смыслового) уровня к физическому, описывается трехуровневой системой моделей представления информационной базы: концептуальной, логической и физической схем. Концептуальная схема информационной базы описывает информационное содержание предметной области, т. е. какая и в каком объеме информация должна накапливаться при реализации информационной технологии. Логическая схема информационной базы должна формализовано описать ее структуру и взаимосвязь элементов информации. При этом могут быть использованы различные подходы: реляционный, иерархический, сетевой. Выбор подхода определяет и систему управления базой данных, которая, в свою очередь, определяет физическую модель данных – физическую схему информационной базы, описывающую методы размещения данных и доступа к ним на машинных (физических) носителях информации, Модель данных – формализованное описание информационных структур и операций над ними.
Основным способом хранения документов является их консервация. Консервация осуществляется различными методами, в их числе:
- соблюдение нормативных условий – режимов хранения (санитарно-гигиенического, температурно-влажностного, светового). С этой целью осуществляется гигиеническая обработка документов (очистка от механических повреждений), выявление и уничтожение микроскопических грибов (микологический надзор и дезинфекция); насекомых (энтомологический надзор и дезинсекция), грызунов (дератизация), повреждающих документы;
- стабилизация – обработка, замедляющая старение и предотвращающая повреждение документа (нейтрализация кислотности, блокирование ионов тяжелых металлов, защита от биологического фактора путем обработки документов и помещений специальными веществами, использование защитных материалов для хранения документов);
- реставрация – восстановление эксплуатационных свойств, а также формы и внешнего вида документа (ремонт, восполнение утраченных частей; механическая, ферментная, химическое очистка; отбеливание, упрочение, реконструкция переплета, укрепление блока, ламинирование и др.);
- изготовление копии – воспроизведение документа на другом носителе в том же или ином формате с помощью различных технологий (фотокопии, ксерокопии, микрокопии, электронные копии).
Другим способом хранения документов и данных является архивирование. Архивирование – процесс обеспечения долговременного и эффективного хранения документов или данных, как правило, редко используемых. Методы архивирования:
- резервное копирование документов или данных для оперативного восстановления их в случае разрушения или порчи;
- сжатие информации с целью уменьшения объемов хранения и возможностью восстановления исходной формы документов или данных. Технологии микрокопирования обеспечивают сжатие информации за счет уменьшения размера текста или изображения. Компьютерные технологии «упаковки» информации используют преимущественно метод кодирования для создания копий файлов меньшего размера. Наиболее популярными программами архивирования данных являются программы ARJ, WinZip, WinRar. Современные технические и программные средства обеспечивают различные техники сжатия текстовой, графической, звуковой, видео-, анимированной информации и записи файлов на относительно недорогих и компактных носителях. Это позволяет существенно снижать объемы информационных массивов и затраты на их хранение.
5.7. ПОИСК ИНФОРМАЦИИ
Поиск информации – процесс выявления и отбора по заданным содержательным и формальным признакам документов или данных из информационных потоков или массивов.
Проблема поиска информации является наиболее проработанной в теории и практике информатики.
В процессе использования информации для выполнения разнообразных задач члены общества (художники, писатели, ученые и т. п.) выполняют информационный поиск – действия, методы и процедуры, позволяющие осуществлять отбор определенной информации из массива данных, удовлетворяя тем самым свою информационную потребность.
Характеристики предметной области, значения которых необходимо установить для выполнения поставленной задачи в практической деятельности, называют информационной потребностью.
Информационный поиск обеспечивается информационно-поисковой системой (ИПС) – совокупностью средств и методов, организованной в функциональную систему, выполняющую хранение и поиск информации. Для ИПС важным является информационный запрос, поступающий от потребителя, – текстовое выражение информационной потребности.
При информационном поиске приходится иметь дело с тремя основными понятиями: элементами (единицами) информации, характеристиками (свойствами, характеризующими информацию) и связями между характеристиками и элементами информации. Элементами информации может быть документ, описание документа, реферат, адрес документа и т. п. Характеристика – это свойство документа, его поисковый признак, дескриптор, ключевое слово, индекс и т. д. В задачах поиска предполагается отыскание элемента или элементов, связанных с заданной совокупностью характеристик, и наоборот.
Суть информационного поиска заключается в выделении в некотором множестве (информационном массиве) подмножества релевантных документов или данных, отвечающих запросу потребителя. Информационный поиск является реакцией на информационную потребность пользователя, выраженную в информационном запросе. Процесс информационного поиска на самом общем уровне описывается следующим алгоритмом:
1. Формулировка запроса, выделение в его структуре основных поисковых признаков: ключевых слов и понятий, предметов и аспектов поиска.
2. Идентификация данных: сравнение поисковых признаков с данными в информационном (поисковом) массиве.
3. Отбор: проверка выявленного подмассива документов или данных на соответствие заданным критериям поиска.
4. Структурирование (упорядочение) документов или данных в соответствии с логикой запроса.
В больших поисковых массивах непосредственный перебор всех элементов информации невозможен, поэтому информационный поиск осуществляется по краткому описанию элемента информации (например, содержания документов) – поисковому образу. Поисковый образ – текст, состоящий из лексических единиц информационно-поискового языка, выражающий содержание документа или информационного запроса и предназначенный для реализации информационного поиска. Поисковый образ, выражающий основное смысловое содержание документа, называют поисковым образом документа (ПОД). Поисковый образ, выражающий смысловое содержание информационного запроса, является поисковым образом запроса (ПОЗ).
Информационный поиск является сложным процессом, включающим множество процедур семантической обработки информации и запросов, от которой зависит его эффективность. Это достигается с помощью формулирования поискового предписания, т. е. текста, включающего поисковый образ запроса и указания о логических операциях, подлежащих выполнению в процессе информационного поиска.
Информационный поиск заключается в сравнении поискового образа документа с поисковым предписанием. При достаточно хорошем их совпадении считается, что документ, имеющий данный поисковый образ, удовлетворяет данному информационному запросу. Для объективной оценки соответствия поискового образа поисковому предписанию используются специальные критерии, называемые критериями выдачи. Критерий выдачи – совокупность признаков, по которым определяется степень соответствия поискового образа документа поисковому предписанию и принимается решение о выдаче или невыдаче данного документа в ответ на информационный запрос.
Соответствие полученной информации информационному запросу называют релевантностью. В тех случаях, когда потребитель информации нечетко выражает свои информационные потребности в информационном запросе, релевантная информация не будет в полной мере соответствовать информационным потребностям. Говорят, что информация не обладает свойством пертинентности. Таким образом, соответствие полученной информации информационной потребности называется пертинентностью.
При описании документов, поступающих в ИПС, и составлении информационных запросов возникает проблема сжатия информации с сохранением основного смыслового содержания текстов. Эта проблема относится к категории семантических и сводится, прежде всего, к построению искусственных информационно-поисковых языков. По ГОСТ 7.74 Информационно-поисковый язык (ИПЯ) – формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью последующего хранения и поиска. Выделяют следующие виды ИПЯ (см. рис.5.5).
ВИДЫ ИПЯ |
ДОКУМЕНТАЛЬНЫЙ – предназначен для индексирования документов, частей документов с целью их последующего хранения и поиска |
КЛАССИФИКАЦИОННЫЙ –предназначен для индексирования документов, частей документов и информационных запросов посредством понятий и кодов какой-либо классификационной системы |
ПРЕДМЕТИЗАЦИОННЫЙ -предназначен для индексирования документов, частей документов и информационных запросов посредством предметных рубрик |
ДЕСКРИПТОРНЫЙ –предназначен для координатного индексирования документов и информационных запросов посредствам дескрипторов или ключевых слов |
ЯЗЫК КЛЮЧЕВЫХ СЛОВ – предназначен для индексирования документов и информационных запросов посредством ключевых слов |
ФАКТОГРАФИЧЕСКИЙ –предназначен для индексирования описаний фактов и информационного поиска фактографических и информационных массивов |
ОБЪЕКТНО-ПОИСКОВЫЙ –фактографический ИПЯ, предназначенный для индексирования описаний фактов в виде перечня объектов (предметов) с указанием относящихся к ним признаков (свойств) и соответствующих значений признаков |
ВЕРБАЛЬНЫЙ – использует для представления своих лексических единиц слова и выражения естественного языка в их орфографической форме |
Рис. 5.5. Классификация ИПЯ
Процесс выражения основного смыслового содержания элементов информации (составления поискового образа) с помощью информационно-поискового языка называется индексированием.
В зависимости от используемого ИПЯ, различают виды индексирования.
Классификационное индексирование (систематизация) – присвоение данным или документам классификационных индексов в соответствии с правилами какого-либо классификационного ИПЯ.
Предметное индексирование – индексирование предметного содержания документов.
Свободное индексирование – индексирование, технология которого не предусматривает замену ключевых слов текста в соответствии с рекомендациями специального словаря.
Координатное индексирование – индексирование, предусматривающее многоаспектное выражение основного смыслового содержания документа или смыслового содержания информационного запроса множеством ключевых слов или дескрипторов.
Фактографическое индексирование – индексирование, предусматривающее отражение в поисковом образе документа конкретных сведений (фактов).
Автоматизированное индексирование – индексирование, технология которого предусматривает использование формальных процедур, осуществляемых с помощью вычислительной техники, и включает применение интеллектуальных процедур при принятии основных решений о составе поискового образа.
Автоматическое индексирование: индексирование, технология которого предусматривает использование только формальных процедур обработки текста, осуществляемых с помощью вычислительной техники.
Качество индексирования оценивается характеристиками полноты и специфичностью индексирования. Полнота индексирования – степень отражения в поисковом образе аспектов содержания документа и (или) запроса. Специфичность индексирования – характеристика качества индексирования, определяемая отношением числа фактографических сведений и специфических терминов, отражающих содержание документа, к числу неспецифических общенаучных терминов в поисковом образе.
На практике наиболее часто встречаются три типа поисковых запросов.
Адресный запрос направляется для получения сведений о наличии в данном хранилище определенного издания. При этом задается библиографическое описание этого издания. Запрос назван адресным потому, что библиографическое описание является достаточным для нахождения адреса хранения требующегося документа.
Тематический запрос – это заявка на подбор документов по определенной теме.
При фактографическом запросе требуются справки типа консультации, например расшифровка условных обозначений, время жизни того или иного человека, значение физико-химических констант и т. п.
Реальные ИПС обычно специализируются на удовлетворении одного (иногда нескольких) типа запросов различными видами информационного поиска, отличающимся целями, средствами и объектом поиска.
Сущность задачи адресного поиска заключается в следующем. Документ рассматривается как объект, адрес которого в хранилище задан. Чтобы найти нужный документ, не нужно обращаться к его содержанию, оценивать по существу, а достаточно удостовериться, что заданный в запросе адрес соответствует адресу, проставленному на документе. Аналогичными задачами являются задачи поиска слов в словаре, жителей в городе по адресу и т. д. Для обеспечения адресного поиска нужно расположить объекты в хранилище в строго определенном порядке, чтобы каждый объект имел свой точный адрес. Этот порядок должен быть известен человеку, ведущему поиск. Типичным средством адресного поиска в библиотеках являются алфавитные и номерные каталоги и указатели.
Адресный поиск используется в ЭВМ, где каждая ячейка запоминающего устройства имеет свой адрес. Процесс обработки информации с помощью ЭВМ сводится к чередованию этапов адресного поиска информации, записанной в тех или иных ячейках, и этапов арифметических или логических операций над записями.
В ЭВМ применяются метод последовательного перебора, метод деления на части, ассоциативно-адресный метод и др. Метод последовательного перебора и метод последовательного деления на части аналогичны, по существу, методам организации и поиска материала в библиотечных каталогах. Адресный поиск является одним из наиболее распространенных видов поиска.
Под семантическим поиском понимается поиск элементов знания, фактов, концепций. Он осуществляется в соответствии с критерием релевантности, на базе которого определяется соответствие между содержанием информационного сообщения и содержанием запроса. Принципиальная разница между адресным и семантическим поиском состоит в том, что при адресном поиске сообщение рассматривается как материальный объект, а при семантическом поиске – как носитель знания, т. е. с точки зрения содержания. Адресный поиск выходит за пределы информационного поиска, семантический же поиск всегда является информационным. Семантический поиск требует тематического и фактографического запросов. Удовлетворение такого рода запросов невозможно без обращения к смыслу сообщения. Примерами семантического поиска являются поиск документов, относящихся к данной области знаний или к данной научной проблеме, проверка патентоспособности какого-либо изделия.
Документальный поиск – это информационный поиск, при котором объектами поиска являются документы. Документальный поиск с использованием ЭВМ называется автоматизированным документальным поиском.
Библиографический поиск – это документальный поиск, осуществляемый в библиографической базе данных с целью нахождения библиографического описания или других адресов первичных документов. Когда потребителю информации требуются сведения о конкретном факте, появляются фактографические запросы, для удовлетворения которых предназначен фактографический поиск.
Фактографический поиск – это информационный поиск, имеющий целью нахождение фактографических описаний, релевантных полученному запросу. Фактографический поиск имеет ряд отличий от документального поиска. Документальная система выдает множество документов, релевантных запросу, предоставляя потребителю выбор фактических данных из этих документов. Фактографические ИПС избавляют потребителя от этой процедуры, направляя ему описание интересующего его факта.
Информационный поиск по разовым информационным запросам в ранее накопленном информационном массиве называют ретроспективным поиском. Поиск производится во всем массиве элементов информации по данной тематике.
Информационный поиск, при котором информационный запрос формируется с помощью булевских операторов, называют булевским поиском.
В современных ИПС информационный поиск, как правило, реализуется с использованием средств вычислительной техники, такой поиск информации называется автоматизированным информационным поиском. Дадим определения основным видам автоматизированного информационного поиска.
Под поиском на естественном языке понимают автоматизированный информационный поиск, для которого информационный запрос формулируется на естественном языке.
Автоматизированный документальный поиск, при котором в качестве поискового образа документа используется его полный текст или существенные части текста, является полнотекстовым поиском.
Эффективность информационного поиска в большей степени зависит от сформулированного информационного запроса, который должен с максимальной полнотой и точностью отражать информационную потребность пользователя. Для этого используют диалоговый режим информационного поиска. Автоматизированный информационный поиск, при котором пользователь автоматизированной системы может формулировать информационные запросы в диалоговом режиме, корректировать их в процесс поиска и получать промежуточные результаты называют диалоговым поиском.
Существует и пакетный режим поиска, который реализуется с помощью пакетного поиска, т.е. автоматизированного информационного поиска, при котором информационные запросы накапливаются в специальном массиве для последующей совместной обработки.
Оценка качества информационного поиска осуществляется на основе семантических показателей, т. е. его способности находить элементы информации релевантные информационному запросу. Результаты информационного поиска оцениваются по следующим семантическим показателям:
Коэффициент полноты – отношение числа найденных релевантных документов к общему числу релевантных документов, имеющихся в информационном массиве.
(1)
Коэффициент точности – отношение числа найденных релевантных к общему числу документов в выдаче.
(2)
Коэффициент шума – отношение числа нерелевантных документов в выдаче к общему числу документов в выдаче (обратный к коэффициенту точности).
(3)
Коэффициент ложной выдачи – отношение числа нерелевантных документов в выдаче к общему числу нерелевантных документов в базе данных.
Коэффициент молчания – отношение числа невиданных нерелевантных документов к общему числу релевантных документов в базе данных.
Формулы для расчета этих показателей выведены из таблицы, представляющей собой разбиение информационного массива по признакам релевантности данному информационному запросу.
В табл. 5.3 используются следующие обозначения: А – множество релевантных и выданных документов; В – множество нерелевантных, но выданных документов; С – множество релевантных, но не выданных документов; D – множество нерелевантных и невиданных документов.
Таблица 5.3
Документы | Релевантные | Нерелевантные | Сумма |
Выданные | А | В | А+В |
Невыданные | С | D | C+D |
Итого | А+С | B+D | A+B+C+D |
5.8. ПЕРЕДАЧА ИНФОРМАЦИИ
Процесс передачи информации на расстояние осуществляется двумя способами: неавтоматизированным, например, с помощью экспедиторов, курьеров, для которого характерны высокая надежность и низкая скорость передачи, иавтоматизированным, требующим системы защиты от искажений и несанкционированного доступа.
Проблемы организации передачи информации уходят в глубь веков. Само существование человека требовало общения и обмена информацией. Прообразом линий связи была сигнализация с помощью костров, использование оптических и акустических сигналов. Также давно возникла идея ретрансляционных (переприемных) станций. По принципу передачи информации современные радиорелейные линии берут свое начало от курьерской почты (relay означает «смену лошадей»). Во Франции во время Великой французской революции впервые организованы приемопередающие станции на башнях и холмах, образуя регулярные линии связи.
Возникновение эры электрической связи связывают с разработкой в 1837 г. американцем Морзе системы телеграфного аппарата и кода, состоящего из точек и тире. Таким образом, только в начале XIX в. попытки изобрести электрическую связь увенчались успехом. В 1832 г. русский академик П. Шиллинг построил первую линию телеграфной связи, в 1876 г. американец Белл получил патент на изобретение телефона, положив начало речевой связи по проводам. Начало XX в. ознаменовалось изобретением радио русским ученым А.С. Поповым.
В 1956 г. фирма Bell Laboratories построила первую цифровую линию связи для передачи речи по принципу импульсно-кодовой модуляции. Запуск искусственного спутника Земли в октябре 1957 г. положил начало эре спутниковой связи.
С появлением средств вычислительной техники и новых ИТ системы и средства связи превратились в динамично развивающуюся отрасль информатики.
Дата добавления: 2016-02-09; просмотров: 4431;