Формулировка запроса
Определив свой вопрос и выбрав ресурсы для поиска, вы должны сформулировать запрос, т.е. выразить вопрос на языке, понятном машине.
Для этого следует:
• разбить вопрос на понятия, которые будут искаться отдельно, а затем объединить их соответствующими логическими операторами (AND, OR, NOT), если в системе поиска предусмотрены булевы операции;
• решить, насколько широко проводить поиск: сделать ли акцент на полноту отклика, т.е. найти по данной теме, часто получая при этом много ненужной информации, или на точность, т.е. быстро найти очень ограниченную конкретную информацию по теме, теряя некоторые относящиеся к ней важные сведения; заметьте, это будут совершенно разные запросы;
• учесть все варианты написания слов и синонимы,если вы ищете при помощи произвольного текста;
• выбрать соответствующую тематическую рубрику, если вы пользуетесь управляемым словарем; это эффективнее ключевых слов;
• решить, как вы бы ограничили поиск определенными полями базы данных или выполнили уточняющие и другие специальные функции.
Сейчас поисковые системы предлагают помощь при решении этих задач. Например, в MEDLINE "отображение" вводимого понятия помогает выбрать соответствующую тематическую рубрику.
Выполнение поиска
При поиске чаще всего применяют первый из описанных ниже методов в силу его простоты. Кроме того, далеко не во всех базах данных реализован управляемый словарь, хотя даже при его наличии пользователям нужно некоторое время, чтобы убедиться в его несомненных преимуществах и пользоваться им наряду с привычными ключевыми словами.
Поиск произвольного текста
При таком подходе вы ищете слова, которые были употреблены, например, i заголовках статей и рефератах, перебирая все варианты написания и синонимы, Очевидно, что вы вряд ли будете уверены, что нашли все возможное, так как автор мог использовать редкий и специфический термин. В некоторых системах поиска алгоритм позволяет вводить набор слов и учитывает некоторые формы слова, например множественное число.
Поиск при помощи управляемого словаря
Предположим, составлен стандартный иерархический список терминов, представляющих все основные понятия некоторой отрасли науки и смежных дисциплин. Тогда, прежде чем добавить ссылку на журнальную статью в справочную базу данных, из этого списка выбираются термины, характеризующие содержание статьи, и вводятся в запись.
Так организован, например, MeSH — Medical Subject Headings (указатель медицинских рубрик). В его основе лежит следующий принцип — всем статьям об одном и том же предмете присваивается одна и та же стандартная тематическая рубрика, независимо от того, какие именно слова употребил автор.
В этом случае, если вам известна стандартная рубрика, гораздо легче выполнить полный поиск в ее рамках, а найти рубрику, наиболее близко соответствующую введенному вами слову или фразе, помогает функция "отображения", которая выдает вам перечень примерно подходящих рубрик, из которого вы уже сами выбираете нужную.
Но в MeSH сделан еще один шаг: статьи точно индексируются по наиболее близким к их содержанию рубрикам, однако благодаря иерархичности терминов возможен очень мощный прием поиска, называемый "расширением".
Когда вы пользуетесь для поиска некоторым достаточно широким понятием, то статьи, индексированные по более узкому термину, не выбираются; если же применять «расширение», то в результат будут включены не только статьи, относящиеся к подрубрикам, расположенным на один иерархический уровень ниже. В то же время вы можете искать информацию по более узкому понятию и найти именно то, что вам нужно.
Два перечисленных приема, т.е. поиск произвольного текста и поиск при помощи управляемого словаря, не являются взаимоисключающими. Напротив, наиболее эффективные стратегии получаются при их комбинации. Например, можно найти довольно значительное число статей по терминам MeSH, а затем сузить результат за счет выбора части из них по ключевому слову.
Базы данных и прочие источники информации доступны через многие Web-интерфейсы. Некоторые из них бесплатны, а для других необходима регистрация и оплата услуг. В предыдущих главах найдется достаточно примеров.
Оценка результатов поиска
Это необходимый критический этап поиска, которым часто пренебрегают.Вотнекоторые полезные критерии для оценки достаточности поиска:
• просмотрите результаты своего поиска, чтобы понять, почему выбраны эти элементы и какую часть составляют нужные, т.е. был ли поиск "прицельным";
• не забывайте, что ошибки могли быть допущены на любой стадии поиска.
Например:
-слишком широкая или узкая формулировка запроса в начале;
- выбор не лучшей базы данных для поиска;
- неправильная формулировка запроса (выбор не той рубрики, ошибочное представление о выбранной рубрике, выбор многозначного ключевого слова или сокращения);
- ошибки набора или неправильное применение операторов при вводе стратегии поиска;
• оценка достаточности зависит от того, для каких целей будут использованы результаты поиска. Объем ссылок, необходимый для написания обзорной статьи, будет избыточным, если вам нужны всего лишь несколько хорошо отражающих вашу проблему статей; первые попытки поиска обычно менее точны, чем последующие, когда стратегия уточняется и сфера поиска сужается;
• если вам уже известны некоторые из найденных ссылок, но результаты поиска отрицательны, следует предположить наличие ошибки в стратегии. Если вы нашли слишком мало или слишком много, то считайтеэто первым сигналом о неэффективности поиска.
Примечание: Не делайте скоропалительных выводов, если ничего (или почти ничего) не найдено. Часто это не является свидетельством отсутствия информации. Обычно доказать отрицательный результат (т.е. отсутствие литературы по этой теме) непросто. Прежде чем прийти к такому заключению, надо попробовать несколько других подходов.
Как правило, гораздо легче идти от широкой стратегии к узкой, чем, наоборот, построить очень узкую стратегию и расширять ее, если найдено слишком мало. Если одновременно используются несколько критериев поиска, попробуйте "ослабить" или убрать некоторые.
Чрезмерно обширный результат поиска — явление довольно распространенное, часто из-за ошибочного определения проблемы или формулировки запроса. Но что делать, если нашлось 400 действительно хороших ссылок по теме ваших исследований, а вам достаточно 25? Тогда попробуйте:
• ограничить поиск дополнительными критериями, предусмотренными системой (для баз данных OVID Technologies это может быть язык или год публикации, тип статьи, объект исследования и др.);
• прочитать названия и аннотации и выбрать самостоятельно наиболее подходящие ссылки, хотя это весьма поверхностный подход, не учитывающий полного содержания статьи.
Если вы удовлетворены результатом поиска, запишите стратегию — она может быть неоднократно использована в дальнейшем для поиска более современной литературы.
Говорят, что в Интернете есть все. На самом деле, конечно, это не так. Материалы для размещения в Сети готовят живые люди, и потому там можно найти лишь то, что они сочли нужным (в смысле полезным, или выгодным для себя) опубликовать. Впрочем, река питается ручьями, и благодаря их творчеству сегодня в Интернете уже образовалось около двух миллиардов Web-страниц.
В результате каталогизация имеющихся в Сети ресурсов стала серьезной проблемой. Несмотря на то, что ею занимаются тысячи организаций, проблема не только не приближается к разрешению, но и становится острее. Процент каталогизированных (или индексированных) ресурсов неуклонно падает. В последние два года это падение стало катастрофическим..
Вывод простой: пространство Web быстрее наполняется, чем систематизируется. К сожалению, у нас нет оснований предполагать, что в ближайшее время что-нибудь может измениться к лучшему. В итоге поиск информации в World Wide Web можно считать самой трудной задачей в Интернете. Если вы подключились к Сети с серьезными намерениями, не пожалейте времени для решения этой задачи.
Поисковые системы Интернета
Поисковые каталоги
Взгляните на эту книгу. Она начинается с Содержания и заканчивается Алфавитным указателем. Несмотря на то, что они расположены в разных местах книги и выглядят совершенно по-разному, задача у них одна: помочь найти в книге именно тот раздел, который в данный момент нужен.
Содержание — это пример каталогизации. Читатель выбирает тему, которая ему интересна, и по ней находит номер страницы, где эта тема раскрывается. Алфавитный указатель — пример индексации (по-английски, index — это и есть указатель). Читатель находит в указателе нужный термин и получает номер страницы, на которой он встречается.
В Интернете каталоги и указатели различаются технологией подготовки. Над каталогами работают люди, а указатели формируются автоматически. При каталогизации ресурса опытный редактор внимательно просматривает его, определяет, к какой области знаний относится данный ресурс, устанавливает его категорию в этой отрасли и вносит ресурс в каталог.
Самый крупный каталог Интернета — Yahoo (www.yahoo.com). В нем работают более 150 квалифицированных редакторов. Это большая организация, но и ее усилий хватает лишь на то, чтобы поддерживать каталог на уровне примерно 1 миллиона ресурсов. Дальнейшее расширение сдерживается необходимостью поддерживать уровень актуальности. Сегодня редакторы Yahoo! заняты не столько наполнением каталога новыми ресурсами, сколько проверкой актуальности ресурсов, каталогизированных ранее.
В российской части.Интернета тоже есть несколько каталогов. В недавнем прошлом лучшим считался каталог @Rus (www.atrus.ru), но в последний год он заметно коммерциализировался, поменял направленность, и сейчас представляет не столько каталог, сколько группу тематических Web-порталов, собранных под одним доменным именем и посвященных обществу, музыке, спорту, здоровью и т. д.
Лишь в категории «Интернет» @Rus продолжает оставаться полноценным каталогом с базой данных среднего размера (порядка 10 тыс. классифицированных ссылок). Ведущим же каталогом России в настоящее время стал ресурс «List.Ru» (www.list.ru). Его активы — примерно 100 тыс. ссылок, классифицированных по 18 категориям (Автомобили, Вокруг света, Отдых, Образование и наука и т. д.). С большим отставанием за ним следуют еще два каталога: « Созвездие Интернет» (www.stars.ru) и «Russia on the Net» (www.ru). Их активы примерно равнозначны и составляют 35-40 тыс. ссылок, но активы «Созвездия» выглядят более актуальными.
Дата добавления: 2016-03-05; просмотров: 1500;