Поисковые машины.
Задача поисковых машин – найти документы в Интернете в соответствии с запросом пользователя. Поисковая система (Search Engine) реализована в виде Web-страницы с обычным адресом, которая содержит, так называемую, строку для поиска и кнопку Поиск (Search), а также может содержать тематический каталог ресурсов, ссылки на популярные страницы и т. п. Поисковые системы состоят из трех основных частей.
Робот-паук-программа, которая систематически посещает веб-страницы, считывает и индексирует полностью или частично их содержимое и далее следует по найденным ссылкам. Полученная информация заносится в базу данных поисковой машины.
Поисковая база данных Индекс представляет собой гигантское хранилище, которое содержит определенным образом организованные данные: индексы, ссылки на веб-страницы и другую дополнительную информацию.
Поисковая программа, которая в соответствии с запросом пользователя перебирает индексы в поисках необходимой информации и выдает результаты поиска в виде ранжированного списка найденных веб-документов. Место документа в списке определяется тем, насколько полно тот или иной документ соответствует критериям, указанным в запросе пользователя.
Принципы работы паука, организации индекса, поисковой программы в поисковой машине, как правило, различаются. Поэтому запрос по одним и тем же выражениям в разных поисковых машинах обычно дает разные результаты.
Программа поиска отыскивает те страницы, которые соответствуют формальным требованиям запроса. Чтобы определить последовательность, в которой страницы будут представлены пользователю, применяется алгоритм ранжирования. Документы, наиболее полно соответствующие запросу пользователя, должны быть помещены первыми в списке результатов. Поисковые системы используют различные алгоритмы ранжирования, однако, основные критерии определения соответствия документа запросу следующие:
количество слов запроса в текстовом содержимом документа;
тэги, в которых эти слова располагаются;
местоположение искомых слов в документе;
удельный вес искомых слов в общем количестве слов документа;
время – как долго страница находится в базе поискового сервера;
индекс цитируемости – как много ссылок на данную страницу идет с других страниц, зарегистрированных в базе поисковой машины.
Однако эффективность работы поисковых машин ограничивается четырьмя существенными факторами.
топология Интернета такова, что поисковые машины могут просматривать не больше трети всех сайтов в Интернете. В 2000 г. специалисты компаний AltaVista и др. исследовали ресурсы и гиперсвязи существующего информационного пространства WWW. Просмотрев с помощью поисковых средств свыше 600 млн веб-страниц и 1,5 млрд ссылок, размещенных на этих страницах, они пришли к выводу, что исследуемое пространство состоит из следующих компонентов:
- центральное ядро – это тесно связанные между собой веб-страницы, с каждой из которых можно попасть на любую другую (27%);
отправные страницы. В них могут быть ссылки, ведущие к ядру, но из ядра к отправным страницам попасть нельзя (22%);
конечные страницы, к которым можно прийти по ссылкам из ядра, но к ядру от них попасть нельзя (22%);
полностью изолированные от ядра страницы, имеющие ссылки либо на конечные веб-страницы, либо ссылки с отправных страниц (22%);
веб-страницы, не пересекающиеся с остальными ресурсами Интернета (7%).
Исследования показали, что при увеличении общего объема информационных ресурсов Интернета установленные отношения компонентов остаются прежними. Таким образом, информационное пространство интернета является достаточно сложным и неоднородным. К отдельным ресурсам Интернета поисковые машины доступа не имеют.
Глубина индексирования веб-сайтов. Большинство поисковых машин индексирует только определенное количество документов на одном веб-сайте.
«Невидимый Интернет» (скрытый). «Видимая» часть сайтов – это та часть, которая обрабатывается поисковыми машинами и индексируется. «Невидимая» часть – та, которая не предназначена для обработки поисковыми системами (число документов «невидимой» части более чем в 500 раз превышает число документов «видимой» части). К невидимому Интернету относятся в первую очередь ресурсы, для доступа к которым требуется пароль или регистрация, профессиональные базы данных, а также различные форматы представления информации (только недавно поисковые машины начали индексировать информацию в PDF-формате).
Лидирующие позиции по количеству проиндексированных страниц занимают поисковые машины Google, AltaVista.
При работе с поисковыми машинами большое значение имеет язык запросов, так как единственным инструментов поиска становиться полнотекстовой поиск по ключевым словам. В большинстве поисковых систем доступен набор поисковых операторов. Наиболее распространены операторы реализующие логические условия AND, OR, NOT, NEAR. Символьно обозначения поисковых операторов и возможности их использования значительно различаются в поисковых машинах.
Список наиболее популярных поисковых систем
Название поисковой системы | Адрес |
Яndex (русскоязычная) | http://www.yandex.ru |
Rambler (русскоязычная) | http://www.rambler.ru |
Yahoo! (англоязычная) | http://www.yahoo.com |
AltaVista (англоязычная) | http ://www.altavista.com |
Дата добавления: 2015-03-14; просмотров: 776;