Поисковые указатели
Поисковые указатели — это автоматизированные системы. Они способны функционировать без участия человека, и потому их знание о подлинных ресурсах Сети намного (на несколько порядков) больше. Количество проиндексированных Web-страниц может измеряться сотнями миллионов.
Работа поискового указателя происходит в три этапа, из которых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает информацию из World Wide Web. Для этого используют специальные программы, аналогичные броузерам. Они способны скопировать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гиперссылки, которые на ней имеются, перейти по указанным в них адресам, скопировать те ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т. д.
Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических программ, занимающихся мониторингом Сети.
Теоретически, при удачном входе спайдер способен прочесать все Web-пространство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посещенным ресурсам, чтобы контролировать происходящие там изменения и выявлять «мертвые» ссылки, т. е. потерявшие актуальность. Неактуальными называют ресурсы, которые по каким-то причинам перестали существовать (или изменили местоположение), хотя гиперссылки, имеющиеся в других ресурсах, продолжают на них указывать. При использовании «мертвых» гиперссылок мы получаем сообщение от броузера о том, что ресурс не найден.
После копирования разысканных Web-ресурсов на сервер поисковой системы начинается второй этап работы — индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось то или иное слово. Считайте, что индексированная база данных — это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы способны выдавать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами.
На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. Допустим, клиент хочет узнать, где в Интернете имеются Web-страницы, на которых упоминается известный голландский механик, оптик и математик Христиан Гюйгенс. Он вводит слово Гюйгенс в поле набора ключевых слов и нажимает кнопку Найти (Search). По своим базам указателей поисковая система в доли секунды разыскивает подходящие Web-ресурсы и формирует страницу результатов поиска, на которой рекомендации представлены в виде гиперссылок. Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам.
Все это выглядит достаточно просто, но на самом деле здесь есть проблемы. Основная проблема Современного Интернета связана с изобилием Web-страниц. Достаточно ввести в поле поиска такое простое слово, как, например, футбол, и российская поисковая система выдаст несколько тысяч ссылок, сгруппировав их по 10-20 штук на отображаемой странице.
Несколько тысяч — это еще не так много, потому что зарубежная поисковая система в аналогичной ситуации выдала бы сотни тысяч ссылок. Попробуйте найти среди них нужную! Впрочем, для рядового потребителя совершенно все равно, выдадут ему тысячу результатов поиска или миллион. Как правило, клиенты просматривают не более 50 ссылок, стоящих первыми, и что там делается дальше, мало кого беспокоит.
Однако клиентов очень и очень беспокоит качество самых первых ссылок. Клиенты не любят, когда в первом десятке встречаются ссылки, утратившие актуальность, их раздражает, когда подряд идут ссылки на соседние файлы одного и того же сервера. Самый же плохой вариант — когда подряд идут несколько ссылок, ведущих к одному и тому же ресурсу, но находящемуся на разных серверах.
Клиент вправе ожидать, что самыми первыми будут стоять наиболее полезные ссылки. Вот здесь и возникает проблема. Человек легко отличает полезный ресурс от бесполезного, но как объяснить это программе?! Поэтому лучшие поисковые системы проявляют чудеса искусственного интеллекта в попытке отсортировать найденные ссылки по качественности их ресурсов. И делать это они должны быстро — клиент не любит ждать.
Строго говоря, все поисковые системы черпают исходную информацию из одного и того же Web-пространства, поэтому исходные базы данных у них могут быть относительно похожи. И лишь на третьем этапе, при выдаче результатов поиска, каждая поисковая система начинает проявлять свои лучшие (или худшие) индивидуальные черты.
Операция сортировки полученных результатов называется ранжированием. Каждой найденной Web-странице система присваивает какой-то рейтинг, который должен отражать качество материала. Но качество — понятие субъективное, а программе нужны объективные критерии, которые можно выразить числами, пригодными для сравнения.
Высокие рейтинги получают Web-страницы, у которых ключевое слово, использованное в запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на Web-странице несколько раз, но не слишком часто. Благоприятно влияет на рейтинг вхождение нужного слова в первые 5—6 абзацев текста — они считаются самыми важными при индексации.
По этой причине опытные Web-мастера избегают давать в начале своих страниц таблицы. Для поисковой системы каждая ячейка таблицы выглядит, как абзац, и потому основной содержательный текст как бы далеко отодвигается назад (хотя на экране это и не заметно) и перестает играть решающую роль для поисковой системы.
Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстрации. Для поисковой системы это верный признак того, что данная страница точно соответствует запросу. Еще одним признаком качества Web-страницы является тот факт, что на нее есть ссылки с каких-то других Web-страниц. Чем их больше, тем лучше. Значит, эта Web-страница популярна и обладает высоким показателем цитирования. Самые совершенные поисковые системы следят за уровнем цитирования зарегистрированных ими Web-страниц и учитывают его при ранжировании.
Создатели Web-страниц всегда заинтересованы в том, чтобы их просматривало больше людей, поэтому они специально готовят страницы так, чтобы поисковые системы давали им высокий рейтинг. Хорошая, грамотная работа Web-мастера способна значительно поднять посещаемость Web-страницы, однако есть и такие «мастера», которые пытаются обмануть поисковые системы и придать своим Web-страницам значимость, которой в них на самом деле нет.
Они многократно повторяют на Web-странице какие-то слова или группы слов, а для того чтобы те не попадались на глаза читателю, либо делают их исключительно мелким шрифтом, либо применяют цвет текста, совпадающий с цветом фона. За такие «хитрости» поисковая система может и наказать Web-страницу, присвоив ей штрафной отрицательный рейтинг.
В последние годы сложилась и практика коммерческого рейтингования. В этом случае поисковая система дает более высокий рейтинг тем Web-страницам, за которые их владелец заплатил. Невзирая на очевидную субъективность такого подхода, в нем есть определенный смысл для тех, кто ищет информацию в Интернете по распространенным словам.
Например, если клиент ввел в поле поиска слово автомобиль или сантехника, то можно предположить, что он хочет приобрести либо машину, либо смеситель для мойки. В этом случае ему не нужны романы из жизни сантехников, как не нужны и рассуждения об управлении автомобилем. Почему бы не дать ему на первом месте среди результатов поиска адреса известных торговых фирм?
Необходимость в ранжировании результатов поиска очевидна. Без этого клиенты захлебнулись бы в потоке предлагаемых ссылок и, может быть, так никогда и не добрались бы до самых полезных для себя ресурсов. Однако у ранжирования есть и негативная сторона. У каждой поисковой системы своя политика ранжирования, и не исключено, что взгляды создателей поисковой системы не вполне совпадают со взглядами клиента. Очень может быть и так, что до каких-то ценных для себя ресурсов он никогда и не доберется, потому что по результатам ранжирования они всегда будут отодвигаться глубоко вниз.
Из этого можно сделать несколько выводов.
• Во-первых, старайтесь избегать прямолинейного поиска по одному слову. Дайте поисковой системе группу ключевых слов, а еще лучше — фразу.
• Для поиска по группе слов или по ключевой фразе используйте не какую попало поисковую систему, а ту, к которой наиболее привыкли. В разных системах используются разные правила для записи группы слов, и эти правила надо знать (об этом мы поговорим ниже).
• Если пользуетесь поиском по одному слову, то, наоборот, применяйте как можно больше разных поисковых систем. То, что они используют разные алгоритмы рейтингования, нам на пользу — это дает шанс не пропустить какой-то значимый ресурс.
Краткий обзор поисковых указателей России
За рубежом возникновение первых поисковых указателей относится к 1994-1995 гг., а в России — к 1996-1997 гг. Поскольку в России объем Web-ресурсов составляет лишь несколько процентов от мирового, отечественным поисковым системам работать много проще, чем западным. Технически они оснащены самыми современными средствами, соответствующими уровню 2000 года, а общий размер Рунета (российского сектора Интернета) сегодня примерно таков, каким был западный сектор в 1994-1995 гг. Поэтому сегодня в России особых проблем с поиском информации нет и в ближайшее время они не предвидятся. А в западном секторе проблемы с поиском очень большие, и разные поисковые системы пытаются по-разному их преодолеть. О том, как это происходит, мы и расскажем.
Из поисковых указателей в России сегодня действуют три главных (есть и более мелкие системы, но мы останавливаться на них не будем). Это «Рамблер» (www.rambler.ru), «Яндекс» (www.yandex.ru) и «Апорт2000» (www.aport.ru).
Исторически наиболее популярной поисковой системой является «Рамблер». Она начала работать раньше других и долгое время лидировала по размеру поискового указателя и качеству услуг поиска. Увы, сегодня эти достижения в прошлом. Несмотря на то, что размер поискового указателя «Рамблер» примерно равен 12 миллионам Web-страниц, он давно толком не обновлялся и выдает устаревшие результаты.
Сегодня «Рамблер» — это популярный портал, лучшая в России классификационно-рейтинговая система (о том, что это такое, мы расскажем ниже) плюс рекламная площадка. Традиционно эта система держит первое место в России по посещаемости и имеет хорошие доходы от рекламы. Но в развитие средств поиска средства, как мы покажем ниже, не вкладываются.
Самый большой указатель лежит в основе системы «Яндекс» — примерно 27 миллионов Web-страниц, но дело не только в размере. Это не просто указатель на ресурсы, а указатель на самые актуальные ресурсы.
Система «Апорт» выигрывает на третьем этапе — в момент представления информации клиенту. Она не стремится к созданию самого большого указателя автоматическими средствами, а вместо этого широко использует информацию из каталога @Rus, проходящую ручную обработку. Поэтому система выдает не так много результатов, как ее ближайшие конкуренты, но зато эти результаты, как правило, точны и наглядно представлены.
Краткий обзор зарубежных поисковых указателей
За рубежом поисковых указателей гораздо больше. Если брать только крупнейшие, то можно насчитать около двух десятков. Мы в нашем обзоре остановимся на трех.
Наиболее популярной (кстати, совершенно незаслуженно, как мы покажем далее) считается поисковая система Alta Vista (www.altavista.com). Она была одной из первых и при ее красивом названии долгое время держалась в лидерах.
К сожалению, сегодня нет никаких оснований, чтобы пользоваться ее услугами. Рано проведя акционирование, Alta Vista сегодня вынуждена больше заботиться об интересах акционеров, чем о развитии. Для нас с вами это означает, что индексацию новых ресурсов система тормозит, причем принудительно, а обновлением старых ресурсов не занимается. Ее указатели безнадежно устарели, а изобилие рекламных баннеров на страницах поиска никак не способствует скорости работы.
Самой мощной в мире сегодня является поисковая система Fast Search (www.alltheweb.com). О ней мало кто знает, потому что она была открыта сравнительно недавно (летом 1999 года). Создатели системы поставили перед ней глобальную цель — создать самый крупный и самый быстрый указатель в мире. Эта цель была достигнута в считанные месяцы. Система первой взяла 300-миллионный рубеж всего через четыре месяца после начала работы, а в 2000 г. приблизилась к отметке 600 миллионов Web-страниц. При этом скорость поиска системы составляет доли секунды и нет никакой рекламы.
Из множества прочих мы специально выделим систему Northern Light (www.northernlight.com). Она имеет приличный указатель, приближающийся к 300 миллионам Web-страниц, и предпринимает заметные усилия по поддержанию его актуальности. Эта система идеальна для проведения научных исследований благодаря тому, что сочетает индексацию и каталогизацию.
После поиска по ключевым словам система не только выдает обширные списки ссылок на найденные ресурсы, но и формирует набор папок, в которых результаты поиска располагаются по отдельным категориям. Кроме того, в системе есть специальный раздел каталожного типа, который называется Special Editions. Он ведется вручную, и в нем можно найти готовые подборки материалов по актуальным проблемам.
Имеется в системе и небольшой коммерческий раздел Special Collections. Его материалы поставляются за деньги. Впрочем, коммерческий раздел невелик и совершенно не портит систему. По-видимому, он рассчитан на журналистов, которым могут срочно потребоваться справки по «горячим» темам.
Проверка и выбор поискового указателя
Конкретные рекомендации по выбору поискового указателя очень быстро стареют. Ситуация в Интернете меняется буквально на глазах. Не проходит и полугода, чтобы что-нибудь не изменилось и в поисковых системах. Та система, которая была наилучшей вчера, может быть не самой лучшей сегодня и очень плохой завтра. В то же время, популярность — вещь хитрая. Она трудно зарабатывается, но потом и долго живет. В итоге мы очень часто встречаемся с ситуацией, когда самой популяр-вой является далеко не лучшая система.
Мы поможем читателю научиться самостоятельно проверять разные поисковые системы и выбирать для работы те, которые дают лучшие результаты. При проверке размер поискового указателя не имеет решающего значения. Нам ведь нужны не миллионы ссылок, а всего две-три, но желательно самые лучшие. Поэтому важно не только то, как много Web-страниц про-индексировала поисковая система, но и то, когда она это делала в последний раз, как часто потом проверяла актуальность ссылок и насколько корректно представляет результаты поиска.
Чтобы проверить качество работы поисковой системы, надо дать ей задание на розыск сведений, о которых устаревшая система знать не может. Вот тут-то и проявится гниль тех систем, которые когда-то нагребли горы материала, а теперь не обновляют его и представляют клиентам старье, густо сдобрив рекламой.
Давайте проведем такой опыт. Допустим, мы узнали, что в течение последних месяцев 2000 года мир интересовался ходом выборов президента США. Попробуем заказать в разных системах поиск документов, в которых одновременно содержатся три слова: Буш, Гор и выборы. Вот что он дает:
«Рамблер» — 45 документов;
«Апорт» — 3338 документов;
«Яндекс» — 17 036 документов.
В том, что «Апорт» отстает от «Яндекса», нет ничего удивительного, ведь «Апорт» никогда не стремился к механическому увеличению размеров указателя. Его сильная сторона — качественный отбор. Но нельзя не обратить внимание на результат «Рамблера», имеющего внушительный указатель, который всего лишь в два раза меньше указателя «Яндекса». Этот нехитрый эксперимент говорит о том, что как поисковая система «Рамблер» прекратил свое развитие и, по-видимому, сосредоточивается на чем-то другом.
Такой же опыт можно поставить и за рубежом. Мы, например, разыскиваем Web-страницы, на которых упоминается операционная система с проектным названием Microsoft Whistler. К моменту написания этой книги она еще не существовала в природе. Те поисковые системы, которые плохо обновляют указатели, неминуемо проявят себя на этом задании.
Ключевые слова Поисковая система Результат поиска
+Mkrosoft +Whistler Alta Vista (230 млн) 2800
Microsoft Whistler Northern Light (250 млн) 14 000
Microsoft Whistter Fast Search (580 млн) 26900
Как видите, две самые современные системы Northern Light и Fast Search различаются по результатам примерно так же, как различаются размеры их указателей. Результат, выдаваемый системой Аltа Vista, заметно хуже. А теперь сами назовите слово, характеризующее указатель Alta Vista, если свежей информации в нем в пять раз меньше, чем в Northern Light. Заметим также, что выдача результатов в системе Alta Vista происходит очень медленно.
Классификационно-рейтинговые системы
Строго говоря, эти системы не являются поисковыми, но если надо найти «то, не знаю что», ими удобно пользоваться. Клиентов WWW условно можно разделить на туристов и охотников. Турист бродит, где ему вздумается, рассматривает разные достопримечательности и получает больше удовольствия от самого факта своего путешествия, чем от его результатов. Охотник же выходит в Сеть за чем-то конкретным. Например, в России в преддверии зимних и летних сессий толпы охотников отправляются в заповедники, где водятся студенческие рефераты. В эти периоды поисковые системы отмечают резкое увеличение использования ключевого слова реферат.
На след «дичи» охотники выходят с помощью поисковых систем, а классификационно-рейтинговыми системами часто пользуются туристы. Самый крупный классификатор в России — «Рамблер Top 100» размещается на портале «Рамблер» (www.rambler.ru). Классификатор похож на каталог, но в отличие от каталога перед ним не ставится задача собрать как можно больше информации о ресурсах Сети.
По каждой из категорий, входящих в классификатор, представляются лучшие сайты, а дальше работает счетчик. Чем больше посетителей обращаются к конкретному сайту, тем выше показания счетчика. Те, кто вышел в Сеть без серьезных намерений, но с общим желанием отдохнуть и познакомиться, например, с музыкальными новинками, могут увидеть, какие сайты в этой области посещаются чаще других и, соответственно, начать свое путешествие именно с них .
Приемы поиска информации
Рассказывать о том, как пользоваться поисковыми каталогами, нет никакой необходимости. Надо просто зайти на сайт (адреса мы уже дали), выбрать категорию, которая интересует, в ней выбрать раздел, и так далее, пока не откроется список конкретных ссылок. Точно так же работают и с классификаторами, только там против каждой ссылки на сайт имеется число, показывающее, сколько людей воспользовались этим адресом в последние сутки (в последний час, в последнюю неделю).
Значительно интереснее рассмотреть приемы использования поисковых указателей, тем более что для разных указателей эти приемы разные. Но прежде чем приступать к изучению конкретных систем, давайте рассмотрим общие концепции, равно относящиеся ко всем поисковым указателям.
Четыре вида поиска
Все поисковые указатели реализуют несколько алгоритмов поиска. К ним относятся: простой поиск, расширенный поиск, контекстный поиск и специальный поиск.
Простой поиск. При простом поиске в поле запроса вводится одно или несколько слов, которые могут характеризовать содержание документа. Если это слово одно, то, как правило, в ответ выдается такое большое количество ссылок, с которым непонятно что делать. Если вводится несколько слов, то результат зависит от того, как эти слова введены, а это, в свою очередь, зависит от конкретной используемой системы. Приемы простого поиска в разных поисковых системах, как правило, свои, и прежде чем ими пользоваться, желательно почитать инструкцию.
Расширенный поиск. Расширенный поиск всегда подразумевает запрос из группы слов. При расширенном поиске в большинстве случаев разрешается связывать ключевые слова логическими операторами AND (И), OR (ИЛИ), NOT (HE) и другими. Основное достоинство расширенного поиска состоит в том, что как правила записи ключевых слов и логических операторов в разных системах либо одинаковы, либо очень похожи. Поэтому, усвоив один раз приемы расширенного поиска, можно ими пользоваться где угодно. Надо только предварительно переключить систему в нужный режим
.Контекстный поиск. Это очень полезный вид поиска, который, к сожалению, реализован не во всех поисковых указателях. Системы, которые его поддерживают, следует ценить особо. При контекстном поиске требуется точное совпадение фразы или группы слов, например «Все смешалось в доме Облонских». В большинстве поисковых систем, включающих этот метод, ключевая фраза должна быть заключена в кавычки: "Все смешалось в доме Облонских".
Специальный поиск. С помощью команд специального поиска разыскивают дополнительную информацию. Например, такие команды позволяют определить, как часто в Сети встречаются гиперссылки, указывающие на какой-либо ресурс, с их помощью можно найти ключевые слова, входящие в заголовки Web-страниц и т. п. Как правило, команды специального поиска в различных поисковых системах свои.
Поисковые системы и каталоги ресурсов
«Желтые страницы Internet» издательства «Питер»
Каталог ресурсов российского Интернета, содержащий тематически структурированные (с использованием многоуровневого классификатора) краткие описания тысяч российских, русскоязычных и относящихся к России Web-сайтов.
Основой этого электронного каталога является постоянно пополняющаяся база данных издательства, начало которой было положено при подготовке справочников «Желтые страницы Internet. Русские ресурсы».
www.piter-press.ru
Дата добавления: 2016-03-05; просмотров: 7564;