Виды информации, хранимой в Интернете и профессиональных базах

Информация о предметной области, то есть об объектах и их свя­зях, может быть представлена в двух видах: формализованном и в виде текста на естественном языке.

Формализованное описание конкретного объекта включает имя свой­ства (характеристики) и значение этого свойства для данного объекта. Имя свойства отражает ту грамматическую роль, которую играет значение этого свойства по отношению к данному классу объектов. Значение свойства (характеристики) может задаваться нормированным словарем или произвольно. Формализованный язык описания предметной об­ласти выполняет следующие основные функции:

• позволяет источнику отбирать лишь ту информацию и описы­вать ее так, как это необходимо потребителю;

• позволяет в базах данных отражать информацию в том же виде, в каком она отражена в сознании специалиста в данной предмет­ной области;

• позволяет в информационных системах по указанию потреби­теля производить автоматическую обработку формализованной информации;

• существенно облегчает поиск необходимой информации в базах данных.

 

Другим видом информации о предметной области является инфор­мация, представленная в виде текста на естественном языке.

Язык — это средство, с помощью которого люди передают друг другу информацию о реальном мире. Словарные выражения являются материальной формой понятий и представлений. Естественный язык сформировался в результате длительного развития общества. Поскольку для различных слоев общества характерна разная степень общности представлений, возникла многозначность слов естественно­го языка: одно и то же слово приобретало множество различных зна­чений, и для одного и того же слова использовалось несколько словес­ных выражений. Таким образом, общими недостатками естественного языка с позиций оценки эффективности поиска являются избыточ­ность и недостаточность.

Избыточность проявляется в следующем:

1) активную роль в процессе передачи содержания текста играют только некоторые слова или словосочетания, так называемые ключевые слова. Другие можно отбросить практически без ущер­ба для понимания смысла;

2) в естественном языке используются синонимы, то есть слова, раз­личающиеся по звучанию и написанию, но тождественные или близкие по смыслу;

3) имеет место неоднозначность выражения, то есть возможность выразить одну и ту же мысль словами, не являющимися сино­нимами (например, «уменьшение сопротивления» — «увеличение проводимости»).

Недостаточность выражения на естественном языке проявляется в следующем:

1) многозначность отдельных слов — омонимия (совпадение по зву­чанию и написанию разных по значению слов). Например, «ключ» (для двери), «ключ» (источник);

2) эллипсность естественного языка. Под эллипсностью понимает­ся пропуск в тексте подразумеваемых слов.

 

Вопросы эффективности поиска информации в Интернете и профессиональных базах

Информационные ресурсы Интернета и имеющиеся в среде Интер­нет поисковые средства обладают определенной спецификой, которая оказывает существенное влияние на эффективность поиска в этой среде.

Основными поисковыми средствами в Интернете являются поисковые системы и каталоги. Поисковые системы состоят из трех частей:

• робот — программа, которая посещает web-серверы, считывает и индексирует полностью или частично их содержимое и далее следует по ссылкам, найденным на сервере. Просмотры серверов осуществляются периодически, например раз в месяц, раз в две недели;

• индексные массивы и копии текстов просмотренных страниц, хранящиеся в поисковой системе;

• программа, которая, просматривая в соответствии с запросом пользователя индексные массивы, отбирает и выдает потребите­лю найденные документы.

В каталогах имеются иерархические тематические рубрики.

Пользователь ищет информацию в каталоге вручную, ис­пользуя рубрики.

В связи с тем что в средствах поиска в Интернете не используются информационно-поисковые языки, на которых могли бы быть описа­ны исходные документы и запросы, полнота поиска в Интернете с уче­том указанных выше поисковых средств будет значительно ниже, чем в документальных системах, построенных на базе информационно-поисковых языков.

У каждой поисковой машины свой процент индексирования доку­ментов и своя стратегия выбора — какие из ресурсов индексировать. Анализ доли документов, заиндексированных крупнейшими зарубеж­ными поисковыми системами, от общего числа документов в Интер­нете, проведенный в 1999 г., показал, что доля заиндексированных документов у лидеров в этой области не превышает 30 %. Следует отметить, что количество документов в Интернете значительно уве­личивается с каждым годом, при этом доля просмотренных и заиндексированных документов уменьшается.

Информационные ресурсы Интернета делятся на «видимую» и «не­видимую части сайтов.

«Видимая» часть сайтов — это та часть, которая обрабатывается поисковыми системами и индексируется. «Невидимая» — часть сайтов, которая не предназначена для обработки поисковыми системами. Американская фирма BrightPlanet разработала программное обеспечение по исследованию «невидимой» части сайтов. Полученные результаты показывают, что число документов «невидимой» части превышает более чем в 500 раз число документов, относящихся к «видимой» части.

 








Дата добавления: 2015-11-18; просмотров: 2172;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.005 сек.