Поисковые системы Интернета
Общие понятия
Для поиска информации в Интернете используют различные поисковые системы, которые еще называют поисковыми машинами. Большинство этих программно-аппаратных комплексов осуществляют поиск веб-страниц. Однако существуют поисковики, способные находить файлы на ftp-серверах, товары в интернет-магазинах, информационные новости, и многое другое.
Программную часть поисковой машины, используя аналогию с автомобилем, часто называют поисковым движком. Кроме того, под поисковой машиной часто подразумевают веб-сайт, накотором размещен пользовательский интерфейс поисковой системы.
Веб- поисковики собирают сведения о размещенных в сети веб-страницах, сохраняют их в своей базе данных и выдают эту информацию пользователям при обработке их запросов. Сбор информации в Интернет осуществляют специальные программы – роботы или сокращенно боты, которые в автоматическом режиме, используя интерфейс обычного пользователя,перебирают веб-страницы сайтов, анализируют их HTML код и отправляют собранные сведения в базу данных поисковой системы.
Для минимизации времени поиска собранная ботами информация в базе данных индексируются. При этом индексироваться могут не только слова или отдельные фразы текста, но и другие объекты веб-страниц. Для повышения качества обслуживания некоторые поисковики обеспечивают так называемое кэширование информации, т.е. хранят в своей базе данных целые фрагменты проанализированных веб-страниц.
Для частичного управления процессом индексирования веб-страниц в Интернете на http-серверах размещают файлы robots.txt. Эти файлы содержат инструкции поисковым роботам, что, по мнению владельцев сайта, необходимо индексировать, а что нет. Однако боты могут игнорировать эти инструкции. Поэтому полная защита от индексации содержания сайта обеспечивается другими механизмами, например, установкой паролей на его страницах, либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому сайта. Для противодействия ботам широко применяется КЭПТЧА (от англ. CAPTCHA, Completely Automated Public Turing test to tell Computers and Humans Apart), т.е. представление текста особым графическим образом, который легко читается человеком, но не распознается роботами.
Результатом поискаявляется список веб-страниц, соответствующих запросу пользователя.Как правило, в этом списке присутствуют заголовок документа, его краткое резюме, а иногда и часть содержания. При этом порядок следования элементов в списке результатов поиска может определяться как самой поисковой системой, так и пользователем.
Основным критерием качества работы поисковой машины является релевантность поиска, т.е. степень соответствия запроса пользователя, найденной по этому запросу информации. Следует иметь в виду, что на оценку полезности поисковой системы помимо алгоритмов ранжирования результатов существенное влияние оказывают: полнота информационной базы поисковика и время его отклика на запросы пользователя, а также учет в запросах морфологии языка пользователя.
Машурцев В.А. Курс “Интернет Технологии”. 2011 |
Например, в русском языке слова (с учетом падежей, единственного и множественного чисел и т.д.) могут иметь разные морфологические формы. Хорошая поисковая система должна учитывать эти особенности, т.е. поисковик должен найти веб-страницу со словом, независимо от того, в какой морфологической форме оно записано в запросе. Так, если в запросе используется слово “проходили”, то поисковик должен найти множество страниц, в том числе и те, в которых присутствует слово “прошли”. Причем, учитывая все морфологические формы слов, поисковик должен различать части речи. В частности, существительное и прилагательное не должны рассматриваться как разные морфологические формы одного слова.
В настоящее время несомненным лидером поисковых систем Интернета является поисковик американской копорации Google. Отметим, что Google является “всеязычнной” системой, т.е. Google собирает, индексирует и ищет веб-страницы практически на всех языках мира. В отличие от Google большинство российских поисковиков, в том числе, самый популярный отечественный поисковик Яндекс, хотя и позволяют работать с многими языками, но в основном специализируются на более глубоком индексировании веб-страниц в доменных зонах с русскоязычными сайтами.
Дата добавления: 2015-12-26; просмотров: 1043;