Поисковые указатели

Поисковые указатели — это автоматизированные системы. Они способны функционировать без участия человека, и потому их знание о подлинных ресурсах Сети намного (на несколько поряд­ков) больше. Количество проиндексированных Web-страниц может измеряться сотнями миллионов.

Работа поискового указателя происходит в три этапа, из кото­рых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает инфор­мацию из World Wide Web. Для этого используют специальные программы, аналогичные броузерам. Они способны скопи­ровать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гиперссылки, которые на ней имеются, перейти по указанным в них адресам, скопировать те ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т. д.

Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических про­грамм, занимающихся мониторингом Сети.

Теоретически, при удачном входе спайдер способен прочесать все Web-простран­ство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посе­щенным ресурсам, чтобы контролировать происходящие там изменения и выявлять «мертвые» ссылки, т. е. потерявшие актуальность. Неактуальными называют ресурсы, которые по каким-то причинам перестали существовать (или изменили местоположение), хотя гиперссылки, имеющиеся в других ресурсах, продолжают на них указывать. При исполь­зовании «мертвых» гиперссылок мы получаем сообщение от броузера о том, что ресурс не найден.

После копирования разысканных Web-ресурсов на сервер поис­ковой системы начинается второй этап работы — индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось то или иное слово. Считайте, что индексированная база данных — это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы способны выда­вать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами.

На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. Допустим, клиент хочет узнать, где в Интернете имеются Web-страницы, на которых упоминается известный голландский механик, оптик и математик Христиан Гюйгенс. Он вводит слово Гюйгенс в поле набора ключевых слов и нажимает кнопку Найти (Search). По своим базам указателей поисковая система в доли секунды разыскивает подходящие Web-ресурсы и фор­мирует страницу результатов поиска, на которой рекомендации представлены в виде гиперссылок. Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам.

Все это выглядит достаточно просто, но на самом деле здесь есть проблемы. Основная проблема Современного Интернета связана с изобилием Web-страниц. Достаточно ввести в поле поиска такое простое слово, как, например, футбол, и российская поис­ковая система выдаст несколько тысяч ссылок, сгруппировав их по 10-20 штук на отображаемой странице.

Несколько тысяч — это еще не так много, потому что зарубеж­ная поисковая система в аналогичной ситуации выдала бы сотни тысяч ссылок. Попробуйте найти среди них нужную! Впрочем, для рядового потребителя совершенно все равно, выдадут ему тысячу результатов поиска или миллион. Как правило, кли­енты просматривают не более 50 ссылок, стоящих первыми, и что там делается дальше, мало кого беспокоит.

Однако клиен­тов очень и очень беспокоит качество самых первых ссылок. Клиенты не любят, когда в первом десятке встречаются ссылки, утратившие актуальность, их раздражает, когда подряд идут ссылки на соседние файлы одного и того же сервера. Самый же плохой вариант — когда подряд идут несколько ссылок, веду­щих к одному и тому же ресурсу, но находящемуся на разных серверах.

Клиент вправе ожидать, что самыми первыми будут стоять наи­более полезные ссылки. Вот здесь и возникает проблема. Чело­век легко отличает полезный ресурс от бесполезного, но как объяснить это программе?! Поэтому лучшие поисковые сис­темы проявляют чудеса искусственного интеллекта в попытке отсортировать найденные ссылки по качественности их ресур­сов. И делать это они должны быстро — клиент не любит ждать.

Строго говоря, все поисковые системы черпают исходную информацию из одного и того же Web-пространства, поэтому исходные базы данных у них могут быть относительно похожи. И лишь на третьем этапе, при выдаче результатов поиска, каж­дая поисковая система начинает проявлять свои лучшие (или худшие) индивидуальные черты.

Операция сортировки полученных результатов называется ранжированием. Каждой най­денной Web-странице система присваивает какой-то рейтинг, который должен отражать качество материала. Но качество — понятие субъективное, а программе нужны объективные критерии, которые можно выразить числами, пригодными для сравнения.

Высокие рейтинги получают Web-страницы, у которых клю­чевое слово, использованное в запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на Web-странице несколько раз, но не слишком часто. Благопри­ятно влияет на рейтинг вхождение нужного слова в первые 5—6 абзацев текста — они считаются самыми важными при индек­сации.

По этой причине опытные Web-мастера избегают давать в начале своих страниц таблицы. Для поисковой системы каж­дая ячейка таблицы выглядит, как абзац, и потому основной содержательный текст как бы далеко отодвигается назад (хотя на экране это и не заметно) и перестает играть решающую роль для поисковой системы.

Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстра­ции. Для поисковой системы это верный признак того, что дан­ная страница точно соответствует запросу. Еще одним призна­ком качества Web-страницы является тот факт, что на нее есть ссылки с каких-то других Web-страниц. Чем их больше, тем лучше. Значит, эта Web-страница популярна и обладает высо­ким показателем цитирования. Самые совершенные поиско­вые системы следят за уровнем цитирования зарегистрирован­ных ими Web-страниц и учитывают его при ранжировании.

Создатели Web-страниц всегда заинтересованы в том, чтобы их просматривало больше людей, поэтому они специально гото­вят страницы так, чтобы поисковые системы давали им высо­кий рейтинг. Хорошая, грамотная работа Web-мастера способ­на значительно поднять посещаемость Web-страницы, однако есть и такие «мастера», которые пытаются обмануть поиско­вые системы и придать своим Web-страницам значимость, кото­рой в них на самом деле нет.

Они многократно повторяют на Web-странице какие-то слова или группы слов, а для того чтобы те не попадались на глаза читателю, либо делают их исключи­тельно мелким шрифтом, либо применяют цвет текста, сов­падающий с цветом фона. За такие «хитрости» поисковая сис­тема может и наказать Web-страницу, присвоив ей штрафной отрицательный рейтинг.

В последние годы сложилась и практика коммерческого рейтингования. В этом случае поисковая система дает более высокий рейтинг тем Web-страницам, за которые их владелец заплатил. Невзирая на очевидную субъективность такого под­хода, в нем есть определенный смысл для тех, кто ищет инфор­мацию в Интернете по распространенным словам.

Например, если клиент ввел в поле поиска слово автомобиль или сантехника, то можно предположить, что он хочет приобрести либо машину, либо смеситель для мойки. В этом случае ему не нужны романы из жизни сантехников, как не нужны и рассуждения об управ­лении автомобилем. Почему бы не дать ему на первом месте среди результатов поиска адреса известных торговых фирм?

Необходимость в ранжировании результатов поиска очевидна. Без этого клиенты захлебнулись бы в потоке предлагаемых ссы­лок и, может быть, так никогда и не добрались бы до самых полезных для себя ресурсов. Однако у ранжирования есть и негативная сторона. У каждой поисковой системы своя поли­тика ранжирования, и не исключено, что взгляды создателей поисковой системы не вполне совпадают со взглядами клиента. Очень может быть и так, что до каких-то ценных для себя ресур­сов он никогда и не доберется, потому что по результатам ран­жирования они всегда будут отодвигаться глубоко вниз.

Из этого можно сделать несколько выводов.

• Во-первых, старайтесь избегать прямолинейного поиска по одному слову. Дайте поисковой системе группу ключевых слов, а еще лучше — фразу.

• Для поиска по группе слов или по ключевой фразе исполь­зуйте не какую попало поисковую систему, а ту, к которой наиболее привыкли. В разных системах используются раз­ные правила для записи группы слов, и эти правила надо знать (об этом мы поговорим ниже).

• Если пользуетесь поиском по одному слову, то, наоборот, применяйте как можно больше разных поисковых систем. То, что они используют разные алгоритмы рейтингования, нам на пользу — это дает шанс не пропустить какой-то зна­чимый ресурс.

Краткий обзор поисковых указателей России

За рубежом возникновение первых поисковых указателей отно­сится к 1994-1995 гг., а в России — к 1996-1997 гг. Поскольку в России объем Web-ресурсов составляет лишь несколько процентов от мирового, отечественным поисковым системам рабо­тать много проще, чем западным. Технически они оснащены самыми современными средствами, соответствующими уровню 2000 года, а общий размер Рунета (российского сектора Интер­нета) сегодня примерно таков, каким был западный сектор в 1994-1995 гг. Поэтому сегодня в России особых проблем с поис­ком информации нет и в ближайшее время они не предвидятся. А в западном секторе проблемы с поиском очень большие, и разные поисковые системы пытаются по-разному их преодо­леть. О том, как это происходит, мы и расскажем.

Из поисковых указателей в России сегодня действуют три главных (есть и более мелкие системы, но мы останавливаться на них не будем). Это «Рамблер» (www.rambler.ru), «Яндекс» (www.yandex.ru) и «Апорт2000» (www.aport.ru).

Исторически наиболее популярной поисковой системой явля­ется «Рамблер». Она начала работать раньше других и долгое время лидировала по размеру поискового указателя и качеству услуг поиска. Увы, сегодня эти достижения в прошлом. Несмо­тря на то, что размер поискового указателя «Рамблер» примерно равен 12 миллионам Web-страниц, он давно толком не обнов­лялся и выдает устаревшие результаты.

Сегодня «Рамблер» — это популярный портал, лучшая в России классификационно-рейтинговая система (о том, что это такое, мы расскажем ниже) плюс рекламная площадка. Традиционно эта система держит первое место в России по посещаемости и имеет хорошие доходы от рекламы. Но в развитие средств поиска средства, как мы покажем ниже, не вкладываются.

Самый большой указатель лежит в основе системы «Яндекс» — примерно 27 миллионов Web-страниц, но дело не только в раз­мере. Это не просто указатель на ресурсы, а указатель на самые актуальные ресурсы.

Система «Апорт» выигрывает на третьем этапе — в момент представления информации клиенту. Она не стремится к созда­нию самого большого указателя автоматическими средствами, а вместо этого широко использует информацию из каталога @Rus, проходящую ручную обработку. Поэтому система выдает не так много результатов, как ее ближайшие конкуренты, но зато эти результаты, как правило, точны и наглядно представ­лены.

Краткий обзор зарубежных поисковых указателей

За рубежом поисковых указателей гораздо больше. Если брать только крупнейшие, то можно насчитать около двух десятков. Мы в нашем обзоре остановимся на трех.

Наиболее популярной (кстати, совершенно незаслуженно, как мы покажем далее) считается поисковая система Alta Vista (www.altavista.com). Она была одной из первых и при ее краси­вом названии долгое время держалась в лидерах.

К сожалению, сегодня нет никаких оснований, чтобы пользоваться ее услу­гами. Рано проведя акционирование, Alta Vista сегодня вынуж­дена больше заботиться об интересах акционеров, чем о разви­тии. Для нас с вами это означает, что индексацию новых ресурсов система тормозит, причем принудительно, а обнов­лением старых ресурсов не занимается. Ее указатели безнадежно устарели, а изобилие рекламных баннеров на страницах поиска никак не способствует скорости работы.

Самой мощной в мире сегодня является поисковая система Fast Search (www.alltheweb.com). О ней мало кто знает, потому что она была открыта сравнительно недавно (летом 1999 года). Создатели системы поставили перед ней глобальную цель — создать самый крупный и самый быстрый указатель в мире. Эта цель была достигнута в считанные месяцы. Система первой взяла 300-миллионный рубеж всего через четыре месяца после начала работы, а в 2000 г. приблизилась к отметке 600 милли­онов Web-страниц. При этом скорость поиска системы состав­ляет доли секунды и нет никакой рекламы.

Из множества прочих мы специально выделим систему Northern Light (www.northernlight.com). Она имеет приличный указатель, приближающийся к 300 миллионам Web-страниц, и предпринимает заметные усилия по поддержанию его акту­альности. Эта система идеальна для проведения научных иссле­дований благодаря тому, что сочетает индексацию и каталоги­зацию.

После поиска по ключевым словам система не только выдает обширные списки ссылок на найденные ресурсы, но и формирует набор папок, в которых результаты поиска распо­лагаются по отдельным категориям. Кроме того, в системе есть специальный раздел каталожного типа, который называется Special Editions. Он ведется вручную, и в нем можно найти гото­вые подборки материалов по актуальным проблемам.

Имеется в системе и небольшой коммерческий раздел Special Collections. Его материалы поставляются за деньги. Впрочем, коммерческий раздел невелик и совершенно не портит систе­му. По-видимому, он рассчитан на журналистов, которым мо­гут срочно потребоваться справки по «горячим» темам.

Проверка и выбор поискового указателя

Конкретные рекомендации по выбору поискового указателя очень быстро стареют. Ситуация в Интернете меняется бук­вально на глазах. Не проходит и полугода, чтобы что-нибудь не изменилось и в поисковых системах. Та система, которая была наилучшей вчера, может быть не самой лучшей сегодня и очень плохой завтра. В то же время, популярность — вещь хит­рая. Она трудно зарабатывается, но потом и долго живет. В итоге мы очень часто встречаемся с ситуацией, когда самой популяр-вой является далеко не лучшая система.

Мы поможем читателю научиться самостоятельно проверять разные поисковые системы и выбирать для работы те, которые дают лучшие результаты. При проверке размер поискового указателя не имеет решающего значения. Нам ведь нужны не миллионы ссылок, а всего две-три, но желательно самые луч­шие. Поэтому важно не только то, как много Web-страниц про-индексировала поисковая система, но и то, когда она это делала в последний раз, как часто потом проверяла актуальность ссы­лок и насколько корректно представляет результаты поиска.

Чтобы проверить качество работы поисковой системы, надо дать ей задание на розыск сведений, о которых устаревшая сис­тема знать не может. Вот тут-то и проявится гниль тех систем, которые когда-то нагребли горы материала, а теперь не обнов­ляют его и представляют клиентам старье, густо сдобрив рек­ламой.

Давайте проведем такой опыт. Допустим, мы узнали, что в те­чение последних месяцев 2000 года мир интересовался ходом выборов президента США. Попробуем заказать в разных сис­темах поиск документов, в которых одновременно содержатся три слова: Буш, Гор и выборы. Вот что он дает:

«Рамблер» — 45 документов;

«Апорт» — 3338 документов;

«Яндекс» — 17 036 документов.

В том, что «Апорт» отстает от «Яндекса», нет ничего удиви­тельного, ведь «Апорт» никогда не стремился к механическому увеличению размеров указателя. Его сильная сторона — каче­ственный отбор. Но нельзя не обратить внимание на результат «Рамблера», имеющего внушительный указатель, который всего лишь в два раза меньше указателя «Яндекса». Этот нехит­рый эксперимент говорит о том, что как поисковая система «Рамблер» прекратил свое развитие и, по-видимому, сосредо­точивается на чем-то другом.

Такой же опыт можно поставить и за рубежом. Мы, например, разыскиваем Web-страницы, на которых упоминается опера­ционная система с проектным названием Microsoft Whistler. К моменту написания этой книги она еще не существовала в природе. Те поисковые системы, которые плохо обновляют ука­затели, неминуемо проявят себя на этом задании.

Ключевые слова Поисковая система Результат поиска

+Mkrosoft +Whistler Alta Vista (230 млн) 2800

Microsoft Whistler Northern Light (250 млн) 14 000

Microsoft Whistter Fast Search (580 млн) 26900

Как видите, две самые современные системы Northern Light и Fast Search различаются по результатам примерно так же, как различаются размеры их указателей. Результат, выдаваемый системой Аltа Vista, заметно хуже. А теперь сами назовите слово, характеризующее указатель Alta Vista, если свежей информа­ции в нем в пять раз меньше, чем в Northern Light. Заметим также, что выдача результатов в системе Alta Vista происхо­дит очень медленно.

Классификационно-рейтинговые системы

Строго говоря, эти системы не являются поисковыми, но если надо найти «то, не знаю что», ими удобно пользоваться. Кли­ентов WWW условно можно разделить на туристов и охот­ников. Турист бродит, где ему вздумается, рассматривает раз­ные достопримечательности и получает больше удовольствия от самого факта своего путешествия, чем от его результатов. Охотник же выходит в Сеть за чем-то конкретным. Например, в России в преддверии зимних и летних сессий толпы охотни­ков отправляются в заповедники, где водятся студенческие рефераты. В эти периоды поисковые системы отмечают резкое увеличение использования ключевого слова реферат.

На след «дичи» охотники выходят с помощью поисковых сис­тем, а классификационно-рейтинговыми системами часто пользуются туристы. Самый крупный классификатор в Рос­сии — «Рамблер Top 100» размещается на портале «Рамблер» (www.rambler.ru). Классификатор похож на каталог, но в отличие от каталога перед ним не ставится задача собрать как можно больше информации о ресурсах Сети.

По каждой из категорий, входящих в классификатор, представляются лучшие сайты, а дальше работает счетчик. Чем больше посетителей обращаются к конкретному сайту, тем выше показания счетчика. Те, кто вышел в Сеть без серьезных намерений, но с общим желанием отдохнуть и познакомиться, например, с музыкальными новин­ками, могут увидеть, какие сайты в этой области посещаются чаще других и, соответственно, начать свое путешествие именно с них .

Приемы поиска информации

Рассказывать о том, как пользоваться поисковыми каталогами, нет никакой необходимости. Надо просто зайти на сайт (адреса мы уже дали), выбрать категорию, которая интересует, в ней выбрать раздел, и так далее, пока не откроется список кон­кретных ссылок. Точно так же работают и с классификаторами, только там против каждой ссылки на сайт имеется число, пока­зывающее, сколько людей воспользовались этим адресом в последние сутки (в последний час, в последнюю неделю).

Значительно интереснее рассмотреть приемы использования поисковых указателей, тем более что для разных указателей эти приемы разные. Но прежде чем приступать к изучению конкретных систем, давайте рассмотрим общие концепции, равно относящиеся ко всем поисковым указателям.

Четыре вида поиска

Все поисковые указатели реализуют несколько алгоритмов поиска. К ним относятся: простой поиск, расширенный поиск, контекстный поиск и специальный поиск.

Простой поиск. При простом поиске в поле запроса вводится одно или несколько слов, которые могут характеризовать содержание документа. Если это слово одно, то, как правило, в ответ выдается такое большое количество ссылок, с которым непонятно что делать. Если вводится несколько слов, то резуль­тат зависит от того, как эти слова введены, а это, в свою оче­редь, зависит от конкретной используемой системы. Приемы простого поиска в разных поисковых системах, как правило, свои, и прежде чем ими пользоваться, желательно почитать инструкцию.

Расширенный поиск. Расширенный поиск всегда подразуме­вает запрос из группы слов. При расширенном поиске в большинстве случаев разрешается связывать ключевые слова логи­ческими операторами AND (И), OR (ИЛИ), NOT (HE) и другими. Основное достоинство расширенного поиска состоит в том, что как правила записи ключевых слов и логических операторов в разных системах либо одинаковы, либо очень похожи. Поэтому, усвоив один раз приемы расширенного поиска, можно ими пользоваться где угодно. Надо только предварительно пере­ключить систему в нужный режим

.Контекстный поиск. Это очень полезный вид поиска, который, к сожалению, реализован не во всех поисковых указателях. Системы, которые его поддерживают, следует ценить особо. При контекстном поиске требуется точное совпадение фразы или группы слов, например «Все смешалось в доме Облонских». В большинстве поисковых систем, включающих этот метод, ключевая фраза должна быть заключена в кавычки: "Все сме­шалось в доме Облонских".

Специальный поиск. С помощью команд специального поиска разыскивают дополнительную информацию. Например, такие команды позволяют определить, как часто в Сети встречаются гиперссылки, указывающие на какой-либо ресурс, с их помо­щью можно найти ключевые слова, входящие в заголовки Web-страниц и т. п. Как правило, команды специального поиска в различных поисковых системах свои.

Поисковые системы и каталоги ресурсов

«Желтые страницы Internet» издательства «Питер»

Каталог ресурсов российско­го Интернета, содержащий тематически структурирован­ные (с использованием многоуровневого классификато­ра) краткие описания тысяч российских, русскоязычных и относящихся к России Web-сайтов.

Основой этого электронного каталога является постоянно пополняюща­яся база данных издательства, начало которой было по­ложено при подготовке справочников «Желтые страни­цы Internet. Русские ресурсы».

www.piter-press.ru








Дата добавления: 2016-03-05; просмотров: 7544;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.022 сек.