Сканирование ® Индексирование ® Классификация ® Обслуживание
Сканирование. В процессе сканирования ресурсов Интернета принимают участие специальные программы, которые в WWW часто называют "паучками". Работа таких программ обычно происходит в автоматическом режиме и состоит в последовательном обходе узлов сети на основе заданного алгоритма, который может отдавать определенные предпочтения тем или иным узлам как на основе их географической или профильной принадлежности, так и частоты изменения находящихся на них ресурсов. Кроме того, учитываются интересы компаний, стремящихся включить свои серверы в индексную базу данной поисковой системы и проинформировать о них широкий круг пользователей сети. Таким образом, важной характеристикой системы является число уже отсканированных узлов и скорость работы сканирующих программ. В процессе сканирования поисковой системе приходится получать доступ к ресурсам сети. Естественно, что такой доступ реализуется в рамках одного из протоколов прикладного уровня. В связи с этим принято различать поисковые системы по области сканирования. Это гипертекстовые базы данных Web, FTP-архивы, ресурсы всемирного пространства GopherSpace и другие.
Индексирование предполагает формирование базы данных поисковой системы, организованной по определенным принципам. В первую очередь предметом сканирования являются текстовые документы. В результате такой операции для каждого документа формируется набор ключевых слов, по которым затем на стадии обслуживания поискового запроса пользователю выдаются адреса проиндексированных ресурсов. Информационные объекты нетекстового характера (графика, видео, аудио) в общем случае также могут идентифицироваться и быть представлены в соответствующих базах данных.
Классификация ресурсов является дополнительной функцией поисковой системы, которая предполагает, например, присвоение при индексировании пометки о принадлежности данного информационного объекта к определенному типу.
Обслуживание пользователей той или иной поисковой системой строится на разработке информационно-поискового языка, естественным образом связанного со структурой базы данных. Типичными являются два основных подхода: пользователю предоставляется возможность вести поиск интересующей его информации либо путем осмысленного на каждом шаге перемещения по дереву иерархического каталога, уже построенного и жестко определенного системой, либо путем реализации собственного поискового запроса в рамках поддерживаемого системой поискового языка. Конечной точкой обоих путей является локализация и извлечение соответствующего информационного объекта.
В мире Интернета технологии WWW произвели революцию, следствием которой стали следующие факторы:
* неуклонное нарастание числа серверов, реализующих http – протокол;
* перенесение наиболее востребуемых ресурсов на Web – узлы с серверов, поддерживающих другие протоколы доступа;
* разработка системы межпротокольных шлюзов WWW- Gopher, WWW – FTP, WWW – Telnet и др.
Существование шлюзов между протоколами прикладного уровня позволяет, например, поисковой системе WWW сканировать ресурсы FTP - архивов, тем не менее инфраструктуры межпротокольных шлюзов оказывается недостаточно для формирования однородного информационного пространства. В результате для исчерпывающего профессионального поиска информации в сети следует прибегать к специальным поисковым средствам, характерным для среды того или иного протокола, а не ограничиваться наиболее развитыми сегодня средствами поисковых систем WWW, надеясь на полноту охвата остальной части Интернета благодаря шлюзам.
По этой причине поиск информации в Интернет сегодня поднимается на уровень технологии.
Несмотря на стремительное нарастание в Интернете средств мультимедиа, на сегодняшний день основным носителем информации в ней остается текстовый документ. Тем не менее даже при поиске документа остается серьезная проблема. Список документов, полученных в результате отклика на пользовательский запрос, сводящийся, например, к указанию единственного ключевого слова для поиска совпадений с ним в пространстве WWW - страниц, может содержать в себе тысячи пунктов. Даже в этой ситуации результат может иметь практическое значение, если отображаемый список представляет документы в порядке убывания их предполагаемой значимости для пользователя. Такое упорядочивание списка документов по релевантности реализуется каждой поисковой системой в рамках своего алгоритма. Благодаря тому, что для разметки текста в WWW используется язык HTML, обладающий средствами особого выделения, например заголовков разного уровня на странице, оказывается достаточно просто реализовать алгоритм сканирования Web – страницы с учетом разного веса различных текстовых полей. Более того, многие поисковые системы WWW позволяют заранее задавать в поисковом запросе то текстовое поле, в котором должен встретиться данный термин.
Поисковые системы WWW. На сегодня в Интернете доступно значительное число поисковых систем, среди которых такие, как Infoseek, Lycos, WebCrawler, Excite, Alta Vista и др. Среди русско-язычных можно выделить такие, как Яndex, Rambler и Апорт! (www.aport.ru). Ссылки на адреса большинства из них приводятся на специальной поисковой страничке компании Netscape Communication:
Дата добавления: 2018-11-25; просмотров: 301;