Формулировка запроса

Определив свой вопрос и выбрав ресурсы для поиска, вы должны сформулировать запрос, т.е. выразить вопрос на языке, понятном машине.

Для этого следует:

• разбить вопрос на понятия, которые будут искаться отдельно, а затем объединить их соответствующими логическими операторами (AND, OR, NOT), если в системе поиска предусмотрены булевы операции;

• решить, насколько широко проводить поиск: сделать ли акцент на полноту отклика, т.е. найти по данной теме, часто получая при этом много ненужной информации, или на точность, т.е. быстро найти очень ограниченную конкрет­ную информацию по теме, теряя некоторые относящиеся к ней важные сведения; заметьте, это будут совершенно разные запросы;

• учесть все варианты написания слов и синонимы,если вы ищете при помощи произвольного текста;

• выбрать соответствующую тематическую рубрику, если вы пользуетесь управляе­мым словарем; это эффективнее ключевых слов;

• решить, как вы бы ограничили поиск определенными полями базы данных или выполнили уточняющие и другие специальные функции.

Сейчас поисковые системы предлагают помощь при решении этих задач. Например, в MEDLINE "отображение" вводимого понятия помогает выбрать соответст­вующую тематическую рубрику.

Выполнение поиска

При поиске чаще всего применяют первый из описанных ниже методов в силу его простоты. Кроме того, далеко не во всех базах данных реализован управляемый словарь, хотя даже при его наличии пользователям нужно некоторое время, чтобы убедиться в его несомненных преимуществах и пользоваться им наряду с привычны­ми ключевыми словами.

Поиск произвольного текста

При таком подходе вы ищете слова, которые были употреблены, например, i заголовках статей и рефератах, перебирая все варианты написания и синонимы, Очевидно, что вы вряд ли будете уверены, что нашли все возможное, так как автор мог использовать редкий и специфический термин. В некоторых системах поиска алгоритм позволяет вводить набор слов и учитывает некоторые формы слова, например множественное число.

Поиск при помощи управляемого словаря

Предположим, составлен стандартный иерархический список терминов, пред­ставляющих все основные понятия некоторой отрасли науки и смежных дисциплин. Тогда, прежде чем добавить ссылку на журнальную статью в справочную базу данных, из этого списка выбираются термины, характеризующие содержание статьи, и вводятся в запись.

Так организован, например, MeSH — Medical Subject Headings (указатель медицинских рубрик). В его основе лежит следующий принцип — всем статьям об одном и том же предмете присваивается одна и та же стандартная тематическая рубрика, независимо от того, какие именно слова употребил автор.

В этом случае, если вам известна стандартная рубрика, гораздо легче выполнить полный поиск в ее рамках, а найти рубрику, наиболее близко соответствующую введенному вами слову или фразе, помогает функция "отображения", которая выдает вам перечень примерно подходящих рубрик, из которого вы уже сами выбираете нужную.

Но в MeSH сделан еще один шаг: статьи точно индексируются по наиболее близким к их содержанию рубрикам, однако благодаря иерархичности терминов возможен очень мощный прием поиска, называемый "расширением".

Когда вы пользуетесь для поиска некоторым достаточно широким понятием, то статьи, индексированные по более узкому термину, не выбираются; если же применять «расширение», то в результат будут включены не только статьи, относящиеся к подрубрикам, расположенным на один иерархический уровень ниже. В то же время вы можете искать информацию по более узкому понятию и найти именно то, что вам нужно.

Два перечисленных приема, т.е. поиск произвольного текста и поиск при помощи управляемого словаря, не являются взаимоисключающими. Напротив, наиболее эффективные стратегии получаются при их комбинации. Например, можно найти довольно значительное число статей по терминам MeSH, а затем сузить результат за счет выбора части из них по ключевому слову.

Базы данных и прочие источники информации доступны через многие Web-ин­терфейсы. Некоторые из них бесплатны, а для других необходима регистрация и оплата услуг. В предыдущих главах найдется достаточно примеров.

Оценка результатов поиска

Это необходимый критический этап поиска, которым часто пренебрегают.Вотнекоторые полезные критерии для оценки достаточности поиска:

• просмотрите результаты своего поиска, чтобы понять, почему выбраны эти элементы и какую часть составляют нужные, т.е. был ли поиск "прицельным";

• не забывайте, что ошибки могли быть допущены на любой стадии поиска.

Например:

-слишком широкая или узкая формулировка запроса в начале;

- выбор не лучшей базы данных для поиска;

- неправильная формулировка запроса (выбор не той рубрики, ошибочное представление о выбранной рубрике, выбор многозначного ключевого слова или сокращения);

- ошибки набора или неправильное применение операторов при вводе страте­гии поиска;

• оценка достаточности зависит от того, для каких целей будут использованы результаты поиска. Объем ссылок, необходимый для написания обзорной статьи, будет избыточным, если вам нужны всего лишь несколько хорошо отражающих вашу проблему статей; первые попытки поиска обычно менее точны, чем последующие, когда стратегия уточняется и сфера поиска сужается;

• если вам уже известны некоторые из найденных ссылок, но результаты поиска отрицательны, следует предположить наличие ошибки в стратегии. Если вы нашли слишком мало или слишком много, то считайтеэто первым сигналом о неэффективности поиска.

Примечание: Не делайте скоропалительных выводов, если ничего (или почти ничего) не найдено. Часто это не является свидетельством отсутствия информации. Обычно доказать отрицательный результат (т.е. отсутствие литературы по этой теме) непросто. Прежде чем прийти к такому заключению, надо попробовать несколько других подходов.

Как правило, гораздо легче идти от широкой стратегии к узкой, чем, наоборот, построить очень узкую стратегию и расширять ее, если найдено слишком мало. Если одновременно используются несколько критериев поиска, попробуйте "ослабить" или убрать некоторые.

Чрезмерно обширный результат поиска — явление довольно распространенное, часто из-за ошибочного определения проблемы или формулировки запроса. Но что делать, если нашлось 400 действительно хороших ссылок по теме ваших исследова­ний, а вам достаточно 25? Тогда попробуйте:

• ограничить поиск дополнительными критериями, предусмотренными системой (для баз данных OVID Technologies это может быть язык или год публикации, тип статьи, объект исследования и др.);

• прочитать названия и аннотации и выбрать самостоятельно наиболее подходящие ссылки, хотя это весьма поверхностный подход, не учитывающий полного содер­жания статьи.

Если вы удовлетворены результатом поиска, запишите стратегию — она может быть неоднократно использована в дальнейшем для поиска более современной ли­тературы.

Говорят, что в Интернете есть все. На самом деле, конечно, это не так. Материалы для размещения в Сети готовят живые люди, и потому там можно найти лишь то, что они сочли нужным (в смысле полезным, или выгодным для себя) опубликовать. Впро­чем, река питается ручьями, и благодаря их творчеству сегодня в Интернете уже образовалось около двух миллиардов Web-страниц.

В результате каталогизация имеющихся в Сети ресур­сов стала серьезной проблемой. Несмотря на то, что ею занима­ются тысячи организаций, проблема не только не приближается к разрешению, но и становится острее. Процент каталогизи­рованных (или индексированных) ресурсов неуклонно падает. В последние два года это падение стало катастрофическим..

Вывод простой: пространство Web быстрее наполняется, чем систематизируется. К сожалению, у нас нет оснований предполагать, что в ближайшее время что-нибудь может изме­ниться к лучшему. В итоге поиск информации в World Wide Web можно считать самой трудной задачей в Интернете. Если вы подключились к Сети с серьезными намерениями, не пожа­лейте времени для решения этой задачи.

Поисковые системы Интернета

Поисковые каталоги

Взгляните на эту книгу. Она начинается с Содержания и заканчивается Алфавитным указателем. Несмотря на то, что они расположены в разных местах книги и выглядят совершенно по-разному, задача у них одна: помочь найти в книге именно тот раздел, который в данный момент нужен.

Содержание — это пример каталогизации. Читатель выбирает тему, которая ему интересна, и по ней находит номер страницы, где эта тема раскрывается. Алфавитный указатель — пример индексации (по-английски, index — это и есть указатель). Читатель нахо­дит в указателе нужный термин и получает номер страницы, на которой он встречается.

В Интернете каталоги и указатели различаются технологией подготовки. Над каталогами работают люди, а указатели фор­мируются автоматически. При каталогизации ресурса опыт­ный редактор внимательно просматривает его, определяет, к какой области знаний относится данный ресурс, устанавливает его категорию в этой отрасли и вносит ресурс в каталог.

Самый крупный каталог Интернета — Yahoo (www.yahoo.com). В нем работают более 150 квалифицированных редакторов. Это боль­шая организация, но и ее усилий хватает лишь на то, чтобы поддерживать каталог на уровне примерно 1 миллиона ресур­сов. Дальнейшее расширение сдерживается необходимостью поддерживать уровень актуальности. Сегодня редакторы Yahoo! заняты не столько наполнением каталога новыми ресур­сами, сколько проверкой актуальности ресурсов, каталогизи­рованных ранее.

В российской части.Интернета тоже есть несколько каталогов. В недавнем прошлом лучшим считался каталог @Rus (www.atrus.ru), но в последний год он заметно коммерциализировался, поме­нял направленность, и сейчас представляет не столько ката­лог, сколько группу тематических Web-порталов, собранных под одним доменным именем и посвященных обществу, музыке, спорту, здоровью и т. д.

Лишь в категории «Интернет» @Rus продолжает оставаться полноценным каталогом с базой дан­ных среднего размера (порядка 10 тыс. классифицированных ссылок). Ведущим же каталогом России в настоящее время стал ресурс «List.Ru» (www.list.ru). Его активы — при­мерно 100 тыс. ссылок, классифицированных по 18 категориям (Автомобили, Вокруг света, Отдых, Образование и наука и т. д.). С большим отставанием за ним следуют еще два каталога: « Созвез­дие Интернет» (www.stars.ru) и «Russia on the Net» (www.ru). Их активы примерно равнозначны и составляют 35-40 тыс. ссы­лок, но активы «Созвездия» выглядят более актуальными.








Дата добавления: 2016-03-05; просмотров: 1513;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.009 сек.