Поисковые системы как средство эффективного поиска информации в Сети

 

Рано или поздно любой пользователь Сети сталкивается с проблемой поиска информации. Информационное пространство Сети огромно и растет с каждым днем. Поэтому поиск информации может занять от нескольких минут до нескольких часов, иногда дней. Все в данном случае зависит от умения искать и находить нужные данные в Интернете.

Большое значение с точки зрения поиска информации имеет одна из важнейших служб Интернета – Всемирная паутина (WWW). Ее образуют миллионы серверов Сети, расположенные по всему миру. В 1998 г. в Интернете насчитывалось порядка 1 млн. веб-сайтов. Количество зарегистрированных доменных имен в Сети с 2000 г. выросло в 10 раз и на 01.01.2010 г. составило 733 млн. единиц. Количество пользователей Интернета выросло с 16 млн. человек в 1995 г. (0,4 % от общей численности населения мира) до 1 967 млн. в 2010 г. (28,7 % населения).

Всемирная паутина непрерывно связана с понятием гипертекста. Гипертекст (Hypertext) – это документ или система документов с перекрестными ссылками (гиперссылками). Для создания, хранения и отображения информации используется язык разметки гипертекста – HTML. HTML-файл является самым распространенным ресурсом Всемирной паутины.

В Сети наряду с актуальной информацией содержится много устаревших ресурсов, мусора и недобросовестной рекламы. Находить информацию в Интернете было бы очень трудно без помощи мощных поисковых инструментов таких, как:

- поисковые машины (поисковики);

- каталоги-рейтинги (рубрикаторы);

- тематические подборки списков ссылок;

- он-лайновые энциклопедии, словари, базы данных и т.д.

При этом для разных задач поиска информации необходимо использовать разные способы.

Информационный поиск – процесс поиска неструктурированной документальной информации и наука об этом поиске. Термин введен Кельвином Муром в 1948 г.

Для его проведения и были разработаны системы автоматизированного поиска (ИПС), которые стали широко использоваться с появлением Интернет.

Поиск информации состоит из 4 этапов;

1) определение информационной потребности и формулировка информационного запроса;

2) определение совокупности возможных держателей информационных массивов;

3) извлечение информации из выявленных информационных массивов;

4) ознакомление с полученной информацией и оценка результатов поиска.

Как показывает практика использования ИПС:

- 90 % пользователей задают поисковикам нечеткие запросы;

- 75 % пользователей не пытаются изменить запрос, если не находят нужной информации;

- 80 % запросов не содержат операторов.

Поиско́вая систе́ма (ПС) – программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете. Под поисковой системой обычно подразумевается сайт, на котором размещён интерфейс (фронт-энд) системы. Программной частью поисковой системы является поисковая машина (ПМ) – комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы.

Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.

Рассмотрим подробнее механизм поиска с помощью поисковых машин. Комплект программ поисковой машины следующий:

- «Паук» (Spider) – программа, которая загружает в поисковую машину веб-страницы. Работает аналогично браузеру, но ничего не отражает на экране. Передает в поисковую систему HTML-код документа.

- «Червяк» или «путешествующий паук» (Crawler) – программа, способная найти на веб-странице все ссылки на другие страницы. Ее задача – определить, куда дальше должен «ползти» «паук», руководствуясь ссылками или заранее заданным списком адресов.

- Индексатор (Indexer) – программа, которая «разбирает» страницу на составные части и анализирует их. Вычленяются и анализируются заголовки веб-страниц, заголовки документов, ссылки, тексты документов. Отдельно анализируется текст, выделенный полужирным шрифтом, курсивом и т.д.

- База данных (Database) – хранилище всех данных, которые поисковая система загружает и анализирует. Требует огромных ресурсов как для хранения, так и для последующей обработки.

- Система выдачи результатов поиска (Search Engine Results Engine) – программа, которая принимает решение, какие страницы удовлетворяют запросу пользователя, и в какой степени. Именно с этой частью поисковой системы «общается» пользователь.

Первые две программы, работающие «в связке», часто называют поисковый робот или HTTP-робот.

Процесс загрузки информации из Интернета и предварительного анализа ее поисковой машиной называют индексацией.

База данных ПС, в которой хранится вся собранная информация, называется индекс.

Глубина индексации может быть разной (полные тексты документов на странице, заголовки). После ввода запроса на поиск, поисковая машина просматривает свою базу данных и выдает перечень страниц, содержащих слова, введенные пользователем в поле ввода (ключевые слова). Таких страниц может быть очень много, задача ПМ отобрать те из них, которые максимально отвечают запросу пользователя (т.е., релевантны ему) и указать ссылки на них в числе первых.

Алгоритм поиска – это метод, руководствуясь которым поисковая машина принимает решение включать или не включать ссылку на страницу либо документ в результаты поиска.

Каждая поисковая машина использует собственный алгоритм поиска («ноу-хау» разработчика ПС). Но вместе с тем существуют общие критерии отбора документов, которыми руководствуются большинство ПС:

1. Присутствие ключевого слова в имени домена или в адресе страницы (URL). Если ответ положительный, то «вес» страницы увеличивается, т.е. больше вероятность появления ссылки на эту страницу в числе первых.

2. Присутствие ключевого слова в заголовке документа (между тегами <title и /title). «Вес» страницы также увеличивается.

3. Ключевое слово содержится в названиях разделов, подразделов документов. Это также приводит к увеличению значимости страницы.

4. Ключевое слово встречается в тексте документа, выделенным жирным шрифтом, курсивом и т.д. «Вес» страницы увеличивается.

5. Ключевое слово должно встречаться в тексте веб-документа достаточно часто (по статистике от 5до 7 % от всего объема текста). Если это происходит чаще, то будет расцениваться как спам либо специальная попытка разработчика страницы увеличить ее «вес».

6. Расположение слов в веб-документе находится в том же порядке, что и в запросе, что приводит кбольшей вероятности появления ссылки на эту страницу в числе первых.

7. Ключевые слова расположены в документе в одном предложении подряд либо между ними небольшое расстояние. «Вес» страницы увеличивается.

8. Присутствие ключевого слова в тексте ссылки на данной странице также дает положительный результат.

9. Наличие других страниц (на этом же сайте или на других), с которых ведут ссылки на документ. Чем с большего количества страниц будет ссылок на искомый документ, тем большим будет его «вес».

10. Совпадение слов, введенных в поле запроса с ключевыми словами, указанными на странице ее разработчиком или со словами, указанными разработчиком в описании страницы. Этот вариант также приводит к увеличению значимости страницы.

Основными преимуществами поисковых систем являются:

- достаточно высокая релевантность при поиске;

- индексы ПС охватывают больше ресурсов, чем каталоги;

- скорость поиска выше, чем при использовании каталогов, т.к. поисковик сразу выдает ссылки на документы, а в каталоге к ним продвигаешься постепенно;

- в ПС меньше устаревших ссылок, чем в каталогах.

К недостаткам поисковых систем можно отнести то, что:

- некоторые разработчики ресурсов с целью увеличения посещаемости их сайтов могут обманывать поисковики;

- пользоваться ПС, особенно в режимах сложного поиска, при котором надо знать язык запросов конкретной поисковой машины, сложнее, чем каталогом.

Перспективным направлением развития поисковых сервисов является разработка метапоисковых систем поиска. Метапоисковые системы (МПС)– системы, позволяющие проводить поиск по запросу пользователя сразу в нескольких поисковых системах.

Метапоисковая система является посредником между пользователем и множеством поисковых систем. Она не предназначена для индексирования и накопления информации, ее назначение – чистый поиск и обработка результатов поиска.

В отличие от ПС и каталогов, МПС не имеют собственных баз данных и не регистрируют адреса сайтов и сами по себе не занимаются поиском. Система переадресовывает запрос сразу нескольким поисковым системам, ссылки выводятся по всем системам без дублирования. Они экономят достаточно много времени, избавляя от необходимости вводить запрос в каждой отдельной поисковой системе. Результаты, в большинстве случаев в высшей степени релевантны. Метапоисковые системы могут использоваться владельцами сайтов для выяснения, присутствует ли их сайт в главных ПС, какие у него рейтинги. В запросах метапоисковиков можно использовать только общие операторы, которые приемлемы для большинства ПС. Встречаются метапоисковые машины с собственным языком запросов, но их мало.

МПС целесообразно применять в следующих случаях:

- при поиске документов с редкими словами или фразами;

- в самом начале процесса поиска, т.к. можно получить самые релевантные результата по нескольким ПС.

Наиболее популярными российскими МПС являются: MetaBot.ru (http://www.metabot.ru) и интеллектуальная поисковая система Нигма.РФ (http://www.nigma.ru). Последняя позволяет одновременно производить поиск в таких ПС, как Yandex, Google, Rambler, Yahoo!, Altavista, Aport, Nigma. Общее количество документов для поиска > 1 млн, обладает собственными возможностями для индексирования веб-страниц.

Среди зарубежных МПС можно выделить:

- Meta Crawler (http://www.metacrawler.com) – > 10 ПС и каталогов;

- Ixquick (http://www.ixquick.com) – т.н. «скрытый» веб;

- Surfwax (http://www.surfwax.com) – платная система;

- Vivisimo (http://www.vivisimo.com) – поддерживает, в том числе, и русскоязычные запросы;

- МПС компании CNET., Inc (http:// www.search.com) – поиск ведется по 20 ПС.

При поиске информации могут быть задействованы и поисковые агенты (оффлайновые метапоисковики), т.е. программы, которые устанавливаются на компьютере пользователя. Наиболее известным из них является Copernic Agent (http://www.copernic.com). Поиск можно вести на нескольких языках: английском, немецком, французском, испанском.

Существуют также специализированные и оригинальные поисковые системы и каталоги:

- каталоги поисковых систем AlltheWeb, Altavista, Google (http://www.bestsearchers.com/search-general/search-engines.html);

- ежедневные обзоры стартапов, интересных и полезных интернет-проектов Рунета (http://www.catalogr.ru);

- оригинальная поисковая система Mrquery gets it! (http:// www.mrquery.com) – включает более 100 баз данных для поиска;

- оригинальная поисковая система Symbaloo (http://www.symbaloo.com);

- системы поисковой визуализации компании Quintura. Inc (интерактивные поисковые системы) (http://www.quintura.com, http://www.quintura.ru);

- каталоги «скрытых» ресурсов:

а) http://www.completeplanet.com – > 100 тыс. ссылок;

б) http://www.bighub.com;

в) http://www.invisible-web.net

г) http://www.dialog.com – более 700 тыс. пользователей, 900 баз данных, используется в 100 странах мира;

д) http://www.lexisnexis.com – содержит информацию для юристов, коммерческую информацию.

 

 

 








Дата добавления: 2015-10-09; просмотров: 2108;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.017 сек.