Системы информационного поиска сети Интернет
В Интернет представлена информация на любые темы, которые только можно себе представить. Но найти в ней нужную информацию не так-то легко из-за того, что сеть по своей природе не имеет чёткой структуры. Поэтому для ориентировки в Интернет и быстрого получения свежей справочной информации разработаны системы поиска информации.
Все системы поиска информации Интернет располагаются на специально выделенных компьютерах с мощными каналами связи. Ежеминутно они бесплатно обслуживают огромное количество клиентов.
Поисковые системы можно разбить на два типа:
предметные каталоги, формируемые людьми-редакторами;
автоматические индексы, формируемые специальными компьютерными программами, без участия людей.
Системы, основанные на предметных каталогах. Используют базы данных, формируемые специалистами-редакторами, которые отбирают информацию, устанавливают связи для баз данных, организуют и снабжают данные в разных поисковых категориях перекрёстными ссылками. Кампании, владеющие предметными каталогами, непрерывно исследуют, описывают и каталогизируют содержимое WWW-cерверов и других сетевых ресурсов, разбросанных по всему миру. В результате этой работы клиенты Интернет имеют постоянно обновляющиеся иерархические (древовидные) каталоги, на верхнем уровне которых собраны самые общие категории, такие как “бизнес”, “наука”, “искусство” и т.п., а элементы самого нижнего уровня представляют собой ссылки на отдельные WWW-страницы и серверы вместе с кратким описанием их содержимого.
Пример. Если нужно выяснить, какая в мире имеется информация о пище динозавров, достаточно спуститься по иерархии:
Науки ==> Млекопитающие ==> Палеонтология ==> Динозавры ==> Пища.
Каталоги, составленные людьми, более осмыслены, чем автоматические индексы. Их очень мало, так как их создание и поддержка требуют огромных затрат. Для примера рассмотрим самый популярный предметный каталог Yahoo!, который обладает одной из крупнейших баз данных. Имеет информационные базы для детей и подростков. Поддерживает два основных метода работы с каталогом — поиск по ключевым словам и поиск по иерархическому дереву разделов. Не принимает запросов на естественном языке.
Автоматические индексы. Переоценить их трудно. Поиск по ключевым словам в одной базе данных, занимающий в худшем случае несколько секунд, принесёт те же результаты, что и обшаривание всех WWW-страниц во всей сети Интернет.
Автоматический индекс состоит из трёх частей:
программы-робота;
базы данных, собираемой этим роботом;
интерфейса для поиска в этой базе, с которым и работает пользователь.
Все эти компоненты функционируют без вмешательства человека.
К автоматическим индексам следует прибегать только тогда, когда ключевые слова точно известны, например, фамилия человека или несколько специфических терминов из соответствующей области. Индексы получают информацию из каждого отдельного узла, регистрируют и индексируют её и добавляют к своим базам данных.
Среди известных индексов выделяется: AltaVista — одна из самых мощных полностью автоматических поисковых систем. Обладает полнотекстовой базой данных. Выдаёт наибольшее количество ссылок. Проиндексировано 30 млн. страниц с 300 тысяч серверов и 4 млн. статей из телеконференций Usenet. За один день AltaVista обслуживает около 20 млн. запросов.
В Интернет один и тот же узел сети может одновременно работать по нескольким протоколам. Поэтому крупные узлы сети сейчас обладают полным набором серверов, и к ним можно обращаться почти по любому из существующих протоколов.
Дата добавления: 2014-12-24; просмотров: 1936;