Основные компоненты в составе поисковых систем
1. Модуль Индексирования
(Вспомогательные программы -роботы)
2. База Данных
3. Поисковый сервер
2.1. Модуль индексирования
CRAWLER (путешествующий паук) –программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача – определить куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.
INDEXER-(робот-индексатор)-программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы.
SPIDER(паук ) –программа, предназначенная для скачивания Web-страниц. «Паук»обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html код каждой страницы. Использует протоколы HTTP,
2.2. База данных
Это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.
2.3. Поисковый сервер
От алгоритмов, лежащих в основе его функционирования, напрямую зависит качество и скорость поиска.
Дата добавления: 2015-08-14; просмотров: 725;