Сравнительные характеристики эффективности поиска в различных системах и оценка достоверности
Из наиболее важных показателей эффективности работы информационных систем, содержащих текстовую информацию, выделяются семантические показатели, которые основаны на оценке релевантности между документами и запросами.
Релевантность – объективно существующее смысловое соответствие между содержанием документа и запроса. Объективность оценок релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса.
Семантическими показателями являются полнота выдачи (потери информации) и точность выдачи (информационный шум).
Введем следующие обозначения:
а – множество релевантных и выданных системой документов;
б – множество нерелевантных, но выданных системой документов;
в – множество релевантных, но не выданных системой документов;
Другой группой показателей оценки эффективности документальных информационных систем являются прагматические показатели. Эти показатели можно определить только в процессе эксплуатации информационной системы. Прагматические показатели определяют абоненты системы на базе оценок пертинетности выданных документов.
Пертинентность – это субъективно оцениваемое соответствие содержания документов или текстов информационным потребностям потребителя. Пертинентность может оценить только автор запроса, работающий с информационной системой. Оценки пертинентности отличаются от результатов, полученных на основе оценок релевантности.
Анализ содержимого в профессиональных базах данных за последние 15 лет показывает неуклонный рост доли текстовой информации в общем объеме информации. Представляется, что основная информация в Интернете также является текстовой. Эти обстоятельства позволяют сделать вывод о том, что подходы к оценке эффективности поиска в документальных системах в полной мере распространяются и на профессиональные базы, и на информационные ресурсы Интернета.
Специфика информационных ресурсов Интернета и имеющихся в среде Интернета поисковых средств, которые оказывают существенное влияние на эффективность поиска в этой среде:
Основными поисковыми средствами в Интернете являются поисковые системы и каталоги. Полнота поиска с учетом вышеуказанных средств будет значительно ниже, чем в документальных системах, построенных на базе информационно-поисковых языков. Поисковые машины включают в свою базу поиска лишь незначительную часть от всех ресурсов Интернета, из-за особенностей структуры Интернета и самих поисковых машин. Данные обстоятельства определяют те высокие требования к профессиональной подготовке пользователя, которые необходимы для получения нужной информации из информационных ресурсов Интернета.
Организация информации в профессиональных базах отличается от организации информации в Интернете тем, что информация накапливается и постоянно обновляется в базах данных. В каждой базе накапливается специфичная информация, отбор достоверных источников и накопление информации ведут информационные агентства – генераторы.
Одним из важнейших показателей, характеризующих полученную из других источников информацию, является ее достоверность.
Достоверность – это степень соответствия информации об объекте его реальному состоянию.
Процесс оценки достоверности информации – это сложный аналитический процесс, зависящий от многих факторов. Невозможно разработать единую схему, которую можно применять в любых случаях. Однако следует рассмотреть некоторые типичные случаи и выявить факторы, которые влияют на оценку достоверности:
знания человека оценивающего информацию (знание процесса поступления информации от первичного источника, надежности первичного источника);
к каждому виду информации при оценке должен быть свой подход (достоверность одного вида зависит от времени, другого не зависит);
уровень подготовки специалиста, оценивающего достоверность информации, его эрудиция, знание предметной области (одним из действенных методов является сравнение значения признака объекта с возможными границами его значений).
Можно выделить несколько обобщенных подходов к оценке достоверности информации:
Выявление, к каким источникам относится поступающая информация – первичным или вторичным;
определение надежности источника информации;
выявление логических несоответствий в поступающей информации;
изучение контекста, в котором излагаются определенные факты и сведения;
выделение информации, основанной на предрассудках, обмане или манипуляции, которая может являться пропагандой, рекламой или несоответствующей действительности.
В наиболее ответственных случаях информацию желательно получать из различных независимых источников, а сами источники должны регулярно оцениваться по степени достоверности поступающей от них информации.
Дата добавления: 2015-03-14; просмотров: 1324;