Средства поиска информации в WWW
Поиск нужной информации в Интернете (определение адресов тех документов, которые содержат интересующую вас информацию) представляет собой весьма трудоемкую задачу для новичка.
Возможные варианты поиска:
l заимствование адресов необходимых документов из бумажных справочников, сборников наподобие «Желтых страниц» и т. п.;
l использование справочно-поисковых систем.
Все существующие типы справочно-поисковых систем обрабатывают массивы неоднородной информации, содержащейся в Сети, но в их основе лежат различные механизмы поиска и отображения информации. Их можно условно разделить на группы:
l поисковые машины;
l поисковые каталоги;
l базы данных адресов электронной почты;
l системы поиска в архивах Gopher;
l системы поиска на FTP-серверах;
l системы поиска в USENET.
Для WWWнаиболее характерны поисковые машины и поисковые каталоги.
Поисковые машины постоянно автоматически исследуют Сеть с целью пополнения своих баз данных документов. Обычно это не требует никаких усилий со стороны человека. Сетевой агент — автоматический робот («паук» — spider) обходит все заданные ему веб-серверы и собирает у себя индекс — информацию о том, что и на какой странице найдено. Но индексация выполняется чисто формально, проверяется наличие заданных ключевых слов в текстах документов, и по этим подчас случайным совпадениям делаются содержательные выводы. Поэтому никакой осмысленной классификации в поисковых машинах не выполняется. Такие системы часто называют индексаторами. Поисковые машины часто привлекают для поиска фрагменты классификаторов, заимствованные в каталогах, поскольку последние выполняют более содержательный отбор информации.
Каталоги в отличие от поисковых машин пополняют свою информацию по инициативе человека. Добавляемая страница должна быть жестко привязана к принятым в каталоге тематическим разделам. Каталог представляет собой упорядоченную по темам коллекцию ссылок на многочисленные веб-страницы и сайты. Каталог, как правило, составляется, обслуживается и поддерживается специалистами разного профиля, которые по заявкам владельцев сайтов или самостоятельно пополняют перечень ссылок и составляют обзоры веб-страниц, содержащие краткое описание информационного ресурса, его сетевой адрес и определенные ключевые слова. Каталоги часто называют классификаторами, поскольку они представляют собой иерархические структуры, где все информационные ресурсы расклассифицированы по темам. Классификацию выполняют либо нанятые специалисты, и тогда она бывает качественной (например, каталог «Желтые страницы Internet» — http://yp.piter.com), либо владельцы каталога — тогда она весьма специфична и качественна не всегда.
Наиболее мощные и популярные международные поисковые системы: Google, Alta Vista, Yahoo, InfoSeek, WebCrawler, Asc Jeewes, Excite и т. д. Но поиск в них информации по русским наименованиям тем (ключевым словам) часто бывает затруднительным, а иногда и невозможным. Поэтому для русскоязычного поиска более удобными являются отечественные поисковые системы Rambler (www.rambler.ru), Yandex (www.yandex.ru) и Aport. (www.aport.ru), а также русскоязычные версии Lycos (www.lycos.ru) и Google (www.google.com.ru).
Основные достоинства этих систем: высокая скорость формирования ответа и простота использования — пользователь обращается на поисковый сервер, задает образ для поиска — ключевые слова интересующей его темы и управляющие элементы синтаксиса запросов, выполняет запрос, и система выдает списки и адреса тех документов, в которых эти ключевые слова встречаются.
Все поисковые системы имеют текстовое поле, в которое вводятся используемые для поиска документов ключевые слова. Для каждой поисковой системы приняты свои правила составления запросов (хотя и похожие), поясняемые обычно на страницах справки этих поисковых серверов.
Общие рекомендации для результативного поиска:
l четкое формулирование цели и темы поиска;
l тщательный подбор ключевых слов с исключением слов общего характера, предлогов, союзов и вспомогательных слов (обычно поисковые системы игнорируют незначащие слова, но осторожность не мешает);
l подбор к ключевым словам максимального количества синонимов и альтернативных слов.
Почти все поисковые системы позволяют выполнять:
l простой поиск, когда задаются лишь ключевые слова без указания структурно-логических отношений между ними;
l расширенный поиск с учетом структурно-логических отношений между словами запроса, с указаниями зон поиска и других ограничительных условий, обусловливающих большую релевантность результатов отбора полезных и отсева ненужных ссылок.
Наиболее мощным и популярным каталогом является Yahoo (www.yahoo.com). По оценкам компании Alexa Internet, этот портал — самый посещаемый в мире. По объему собранной информации он лишь незначительно уступает Alta Vista. Это старейший каталог — Yahoo был запущен в начале 1994 года. В марте 1996 года открыт еще один каталог Yahoo — Yahooligans для детей. Поскольку Yahoo основан на подписке пользователей, в нем может не оказаться некоторых нужных сайтов. Если поиск по Yahoo не дал подходящих результатов, клиенты могут воспользоваться поисковой машиной. Когда делается запрос к Yahoo, каталог переправляет его к любой из основных поисковых машин. Первыми ссылками в списке удовлетворяющих запросу адресов следуют адреса из каталога, а затем идут адреса, полученные от поисковых машин, в частности от Alta Vista.
Страница поиска каталога Yahoo показано на рис. 23.7.
Рис. 23.7. Страница поиска каталога Yahoo
Самая известная из поисковых машин — Alta Vista(www.altavista.com), запущена фирмой Digital Equipment Corporation в декабре 1995 года. В настоящее время наиболее мощной поисковой машиной являетсяGoogle, предоставляющая более 3,5 млрд документов, поддерживающая значительное число тематических конференций. Поиск с помощью Gugle производится в точном соответствии с введенным ключевым словом с учетом различия строчных и прописных букв. В ответе ключевые слова запроса выделяются жирным шрифтом. Gugle позволяет сохранить результаты поиска, формируя систему закладок. Одна из самых популярных российских поисковых машин Яндекс — часто ее имя пишут как Яndex (Языковый index). Это система полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского языка. Яndex включает в себя модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких, как анализатор документов, языки разметки, конвертеры форматов, сетевой «паук», который 5 марта 2002 года проиндексировал 1 Тбайт информации.
Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система полнотекстового индексирования позволяет создавать компактный индекс и быстро осуществлять расширенный поиск с учетом логических операторов:
l &&—логическое И (ключевые слова должны находиться в пределах одного документа);
l пробел или & — краткое логическое И (ключевые слова должны находиться в пределах одного абзаца);
l , или | — логическое ИЛИ;
l ( )—группирование слов;
l ~(тильда) — оператор И НЕ (в пределах одного абзаца);
l ~~ (двойная тильда) — оператор И НЕ (в пределах одного документа);
l /(nm) — расстояние в словах (– назад, + вперед);
l &&/(nm) — расстояние в абзацах (– назад, + вперед).
Можно задавать зоны поиска:
l $Title — поиск в заголовках документов;
l $A — поиск в ссылках.
И другие.
В поисковой системе Яndex поддержана возможность осуществлять повторный поиск только в найденных документах (это нужно в случае, если найдено слишком много документов для уточнения запроса). Яndex умеет работать с текстами как в локальной, так и в глобальной сети (технологии Intranetи Интернет). На рис. 23.8 показана поисковая страница системы.
Рис. 23.8. Сервер поисковой машины Яndex
Push-технология распространения информации в WWW (другие ее названия: «толкай»-технология, технология «широковещания) подразумевает отправку пользователю информации с соответствующего сервера в режиме реального времени. Пользователь указывает системе, какие источники и какая тематика сообщений его интересуют, и система сама посылает на его компьютер всю заказанную им новую информацию. Эта технология является альтернативой используемой сейчас pull-технологии (pull — «тяни»), которая предлагает пользователям самим «копаться» в Сети и «перекачивать» к себе найденную информацию самостоятельно.
За последнее время анонсированы десятки новых программ, работающих на основе push-технологии; фирмы Netscape и Microsoft внедряют эту технологию в последние версии своих программных продуктов. Push-программы позволяют передавать информацию не только по электронной почте, но также и на факсимильный аппарат, и на пейджер.
Дата добавления: 2016-04-02; просмотров: 1635;