Основные компоненты в составе поисковых систем

1. Модуль Индексирования

(Вспомогательные программы -роботы)

 

 

2. База Данных

3. Поисковый сервер

2.1. Модуль индексирования

CRAWLER (путешествующий паук) –программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача – определить куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.

INDEXER-(робот-индексатор)-программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы.

SPIDER(паук ) –программа, предназначенная для скачивания Web-страниц. «Паук»обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html код каждой страницы. Использует протоколы HTTP,

2.2. База данных

Это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

2.3. Поисковый сервер

 

От алгоритмов, лежащих в основе его функционирования, напрямую зависит качество и скорость поиска.

 








Дата добавления: 2015-08-14; просмотров: 725;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.004 сек.