Поиск информационных ресурсов в Интернете
Наиболее мощными поисковыми машинами, на сегодняшний день в мире являются:
Google (google.com),
Bing(bing.com)
Alta Vista (www.altavista.digital.com),
Yahoo! (www.yahoo.com),
Infoseek (www.infoseek.com),
Baidu (baidu.com)
GoTo (www.goto.com),
FTP search (ftpsearch.ntnu.no - поиск в системе FTP),
а также отечественные:
Yandex(yandex.ru),
Rambler (www.rambler.ru),
Compass (compass.tsu.ru),
Russian FTP search (ftpsearch.city.ru - поиск в системе FTP).
Популярность приобретают метапоисковые (мультипоисковые) машины, которые переадресовывают запрос на поисковые машины, а за тем суммируют полученное и удаляют дублируемые записи. Например, Metabot.ru, nigma.ru
Функционирование поисковой машины включает два процесса:
1) индексирование ресурсов Internet (автоматическое построение и обновление индекса);
2) поиск по индексу информации, соответствующей запросу пользователя.
Поисковая машина – это программа, которая составляет и хранит предметный указатель Интернета (индекс) и находит в нем заданные ключевые слова, а затем адреса сайтов.
Основной действующий элемент машины – это робот-паук (программный агент) систематически посещающий сайты, считывающий адреса сайтов, которые необходимо индексировать.
За тем создается индекс.
Специфика индекса заключается в том, что в нем по алфавиту хранятся только основы словсодержащих ссылки на номера web-страниц, где они присутствуют.
Индексная запись имеет следующую структуру:
Основа (номер страницы, номер страницы, …, номер страницы).
Основа это ключевое слово специально обработанное (без окончания).
Если в обычном тексте мы идем от страницы к словам, то поисковая машина идет от слов к страницам.
Поэтому индекс поисковой машины называется инвертированным (перевернутым).
Поисковая программа в соответствии с запросом пользователя перебирает индексы и выдает результаты, содержащие текстовую копию страниц Интернета.
Поисковые машины могут просмотреть не более трети всех сайтов в Интернете (по другим данным не более 10%).
Существует еще невидимый и закрытый Интернет.
Роботы, являясь программными агентами, отвечают за извлечение документов из сети. Все поисковые агенты делятся на
- неспециализированные и
- специализированные.
Неспециализированныеагенты обеспечивают поиск по ключевым словам и устойчивым словосочетаниям. Такие системы агентов объединяют ссылки на сайты, найденные множеством машин поиска. Используя агентов такого класса можно уменьшить число результирующих документов.
Специализированные агенты приспособлены искать сайты по видам (новости, музыка, акции, книги, видеоклипы и т.д.).
Дата добавления: 2015-05-21; просмотров: 1074;