http://home.netscape.com/escapes/search/ntsrchrnd-2.html
Задача поисковых систем состоит в представлении ссылок на сайты Интернета в соответствии с введенным пользователем запросом. Поисковые системы состоят из трех основных частей.
q Поисковая машина – ее иногда называют пауком, гусеницей или роботом (Spider, Crawler, Robot) – программа, которая посещает Web-сайты, считывает и индексирует полностью или частично их содержимое и далее следует по ссылкам, найденным на сервере. Поисковая машина регулярно, например каждый месяц, возвращается на сайты и повторяет индексацию страниц.
q Индексы поисковой системы. Сюда попадает все или основная часть того, что находит и считывает поисковая машина. Индексы системы представляют собой гигантское хранилище информации, где хранятся текстовые копии всех страниц, которые посетила и проиндексировала поисковая машина. Третья часть – это программа, которая в соответствии с запросом пользователя перебирает индексы поисковой системы в поисках необходимой информации и выдает ему в порядке убывания релевантности найденные документы. Разумеется, что далеко не всегда документ, признанный поисковой системой наиболее релевантным, будет таковым по мнению самого пользователя.
Несмотря на впечатляющие рекламные заявления создателей поисковых систем как в отношении числа индексируемых документов, содержащихся в их базах данных, так и в отношении изощренности алгоритмов поиска и ранжирования, только их практическое использование для нужд конкретного пользователя может дать ответ на вопрос, какая из поисковых систем и в какой степени адекватна возлагаемым на нее задачам.
Для примера рассмотрим некоторые из поисковых систем.
Alta Vista (http://altavista.com) – некоммерческая поисковая система свободного доступа, поддерживается корпорацией Digital Equipment Corporation.
Имеется также и расширение ее возможностей для коммерческого использования, которое существует в виде Business eXtension Program. На сегодня ей
принадлежит пальма первенства по числу заиндексированных ресурсов Web. Кроме того, благодаря наличию межпротокольных шлюзов, она располагает адресами ресурсов, доступных по протоколам, отличным от http. Высокая скорость сканирования Паутины этой системой позволяет предположить, что в ближайшем будущем ее индексная база данных будет покрывать подавляющее количество открытых для свободного доступа узлов WWW. Индекс этой поисковой системы обновляется ежедневно с помощью специальной программы Scooter, причем частота посещения отдельного узла зависит от частоты изменения информации на нем. На рис. 34 приведена начальная страница этой системы.
Рис. 34
При отсутствии какой-либо дополнительной информации система индексирует все слова документа, за исключением комментариев, и использует несколько первых слов документа в качестве краткой аннотации. В процессе поиска Alta Vista реализует алгоритм ранжирования, согласно которому каждому документу, содержащему совпадение по заданному термину, присваивается ранг, определяющий порядковый номер документа в списке результатов поиска. Ранг приписывается на основе частоты употребления термина в документе, области документа, где он встретился, а также близости терминов друг к другу при комбинированном поиске. Система позволяет организовать поиск в сети, предоставляя поисковые шаблоны для выполнения простого (Simple Search) и расширенного (Advanced Search) запросов.
Корпорация Digital Equipment Corporation, поддерживающая в сети систему Alta Vista, для пользователей, говорящих по-русски, реализовала версию программы, которая позволяет искать информацию во всех русскоязычных кодировках (koi8-r, страница 1251 для Windows 9.x, страница 866 для MS-DOS, ISO-8859-x и MAC). Получить к ней доступ можно либо по адресу http://www.altavista.telia.com/, выбрав из предлагаемого меню страну прожи- вания и язык (знакомство с этой страницей очерчивает масштаб деятельности корпорации по разработке неанглоязычных ветвлений этой поисковой системы), либо же непосредственно ввести http://altavista.telia.com/crib-bin/telia?
country=ru&laHg=ru.
Корпорация Digital Equipment Corporation, поддерживающая в сети систему Alta Vista, для пользователей, говорящих по-русски, реализовала версию программы, которая позволяет искать информацию во всех русскоязычных кодировках (koi8-r, страница 1251 для Windows 9.x, страница 866 для MS-DOS, ISO-8859-x и MAC). Получить к ней доступ можно либо по адресу http://www.altavista.telia.com/, выбрав из предлагаемого меню страну проживания и язык (знакомство с этой страницей очерчивает масштаб деятельности корпорации по разработке неанглоязычных ветвлений этой поисковой системы), либо же непосредственно ввести http://altavista.telia.com/crib-bin/telia?
country=ru&laHg=ru.
Как и в англоязычной версии, система поддерживает режимы простого и сложного запросов, а вместе с последним и возможность задавать дату, более сложную логику и возможность упорядочивания результатов.
Здесь нужно учитывать немаловажный аспект, зачастую сводящий на нет эффективность поиска документов, набранных в кириллице, по ключевым словам, который состоит в том, что морфология русского языка (прежде всего многообразие падежных форм) не дает правильного числа совпадений с терминами в документе, если грамматическая форма термина в поисковом запросе и в документе отличаются.
В этом смысле интерес представляют поисковые системы, учитывающие морфологию русского языка, такие, как программные продукты на основе ядра поисковой системы Яndex (http://yandex.ru) компании Comp Tek International, реализованной на базе данных сервера издательского дома "Открытые системы" (http://win.\vww.osp.ru), причем поисковый язык является достаточно развитым. Яndex включает модули морфологического анализа и синтеза,
Рис. 35
индексации и поиска, а также набор вспомогательных модулей, таких, как анализатор документов, языки разметки, конверторы форматов и др. Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовывать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с применением логических операторов. Реализация Яndexдля WWW имеет шлюз к поисковой системе Alta Vista и доступна по следующему адресу http://w\vw.coniptek.ru/alta.henl.
Начальная страница поисковой системы Яndex приведена на рис. 35.
В последнее время растет популярность достаточно мощной и быстрой русской поисковой системы Rambler (http://rambler.ru),поддерживаемой в сети компанией Stack Ltd. (г. Пущино), которая предоставляет возможность поиска как в Web, так и в системе телеконференций при распознавании всех кодировок кириллицы и с применением обычных логических коннекторов.
Начальная страница поисковой системы Rambler приведена на рис. 36.
Каталоги. Аналогичную поисковым системам функцию выполняют серверы – каталоги, с той лишь разницей, что поиск осуществляется пользователем по иерархически организованной тематической структуре каталогов. Регистрация ресурсов в каталогах, в отличие от поисковых систем, не является автоматической, и инициатором регистрации является владелец ресурса. Для регистрации в каталоге необходимо либо заполнить определенную форму, либо послать запрос, содержащий указание, в какой раздел вы хотите по-
Рис. 36
местить свою страницу, краткое описание сайта и список ключевых слов для поиска страницы в каталоге.
Самым широко известным каталогом является Yahoo! (www.yahoo.com), который существует с конца 1994 года, содержит порядка миллиона Web – страниц и считается самым популярным и старейшим из основных каталогов Интернета. Начальная страница каталога Yahoo! приведена на рис. 37.
Рис. 37
Среди каталогов российской части сети можно выделить STARS.RU (www.stars.ru), List.RU (www.list.ru), The List of Russian Web Servers (www.weblist.ru) и Russia on the Net (www.ru), начальная страница которого приведена на рис. 38.
Некоторые поисковые системы имеют при себе и каталог. Индексы для самой поисковой системы добываются поисковой машиной, а каталог пополняется через регистрационную форму или модераторами системы. Примерами таких систем являются уже упоминавшиеся выше Excite (www.excite.com), Lycos (www.lycos.com), WebCrawler (www.webcrawler.com).
Порталы или инициирующие сайты. Последнюю группу серверов управления трафиком в Интернете представляют инициирующие сайты. Если цель поисковых систем или каталогов состоит в поиске информации и последующем перенаправлении пользователей к найденным ресурсам в соответствии с запросом, то инициирующие сайты используют более комплексный подход и, наряду с функциями поиска информации и перемещения к ней пользователей, предоставляют достаточно широкое по тематике информационное содержание. Основная задача, которую они решают данной стратегией, состоит в том, чтобы как можно дольше удержать пользователей именно на их сервере и только в крайнем случае перенаправлять пользователя на внешние ресурсы. Таким образом, инициирующие сайты можно одновременно отнести как к поисковым средствам, так и к группе конечных сайтов. Наиболее крупные из инициирующих серверов получили название порталов.
Рис. 38
Портал – этоWeb-сайт, предназначенный для специфической аудитории, который обеспечивает:
q объединение информационного наполнения и доставку важной для данной аудитории информации;
q совместную работу и коллективные услуги;
q доступ к услугам и приложениям для избранной аудитории, предоставляемый на основе строгой персонализации.
Порталы можно разделить на три вида: мегапорталы, вертикальные порталы и так называемые порталы "бизнес для бизнеса", или В2В-порталы.
Мегапорталами называются оригинальные порталы Интернета. Многие из них начинали как механизмы поиска и быстро вырастали до мегапорталов, например,Yahoo!, Lycos и America Online. Их аудиторией является практически все Интернет-сообщество.
Вертикальные порталы являются порталами для специфических рыночных ниш. Иногда их называют "ворталы" – в(ертикальные п)орталы. Они обслуживают узкоспециализированные сообщества или рынки. Вертикальный портал существует практически для каждой аудитории, имеющей свою нишу в Интернете, и каждый такой рынок обычно имеет более одного вертикального портала.
Порталы типа "бизнес для бизнеса" (В2В) являются своего рода электронным рынком, который создан для того, чтобы предприятия могли взаимодействовать друг с другом или совершать общие деловые операции. Такие порталы предоставляют своим клиентам множество механизмов электронного бизнеса (например, закупки, проведение прямых и обратных аукционов).
Одним из самых популярных международных мегапорталов является Excite (www.excite.com), о котором уже речь шла как об одной из популярных международных поисковых систем. Так, портал Excite сочетает в себе отличные инструменты индивидуализации, превосходный механизм поиска с прогнозированием запросов пользователя и развитые средства организации сообществ.
Среди российских порталов одно из первых мест занимает информационный портал компании "Россия-Он-Лайн" (www.online.ru) – одного из ведущих российских поставщиков услуг Интернета.
Классификация Web-сайтов. Проведенный краткий обзор показал, что для использования ресурсов Интернета необходимо хорошо представлять существующие виды Web-сайтов, выполняемые ими функции, а также логику навигации по ним пользователей. По выполняемым функциям все Web-сайты можно разделить на две основные группы:
· навигационные сайты;
· конечные сайты.
Такое деление обусловлено общей логикой навигации пользователей в среде Интернета. Навигационные сайты нами рассмотрены выше. Общая же классификация Web-сайтов приведена на рис. 39.
Рис. 39
Кратко рассмотрим вторую группу Web-сайтов.
Конечные сайты. В эту группу сайтов входят конечные "адресаты", предоставляющие пользователям разнообразные услуги, ради которых пользователи собственно и посещают Интернет. Этими услугами может быть предоставление данных, документации, финансовых сводок, информации о курсах акций, фирмах, их продукции и услугах, различные способы времяпрепровождения, продажа товаров и многое другое.
Корпоративные сайты обеспечивают виртуальное присутствие фирм и их предложений в Интернете. Сайты этого типа можно разделить на два типа: рекламные серверы и информирующие серверы, хотя четкую границу между ними провести бывает довольно трудно.
Рекламный сервер может состоять из одной или нескольких Web - страниц и содержать различную рекламную информацию. Информация о продуктах или услугах фирмы обычно обеспечивается в том контексте, в котором она имеет значение для потребителя. Такой тип сервера особенно подходит для продуктов, которые не требуют представления большого количества информации, при этом основное взаимодействие на потребителей оказывается скорее в эмоциональном плане, чем в информационном.
Информирующие серверы обеспечивают детальную информацию о фирме и/или ее предложениях. Такие серверы могут иметь довольно разнообразное строение и для облегчения навигации в случае сложного строения сервера или большого объема представленной информации может использоваться функция поиска.
Хорошим примером корпоративного сайта, выполняющего как информационные, так и рекламные задачи, является сайт одного из крупнейших в Санкт-Петербурге поставщиков услуг Интернета – компании "Петерстар" (www.peterstar.ru).
Информационные сайты. Название группы говорит само за себя – это серверы, главной своей целью ставящие представление той или иной информации пользователям Интернета. Наиболее характерное деление в группе можно провести по признаку необходимости оплаты для доступа к информации или для ее представления на Web-сервере.
Рассмотрим для начала платные серверы. В этом случае для доступа к информации пользователи платят определенную сумму. Возможен и другой вариант, когда для пользователей услуги бесплатны, а плата взимается с фирм за включение информации о них в базу данных Web-сервера. Основной проблемой эффективного функционирования Web-сервера такого типа является задача предоставления уникальной информации, поскольку Интернет является информационно насыщенной средой, где существует много альтернатив поиска требуемой информации. Наиболее характерным примером серверов, относящихся к этой группе, являются Web-серверы, предоставляющие, во-первых, финансовую информацию и, во-вторых, информацию о рынке, то есть информацию о фирмах, их продукции и услугах с возможностью проведения выборок по регионам, отраслям и т.д.
Очень часто на сайте наряду с платным предоставлением информации реализуется и бесплатное, например, по отдельным тематикам. Таким образом, происходит совмещение двух вышеназванных моделей, которое способствует привлечению большего количества посетителей, формированию и продвижению имиджа компании, а также является дополнительным средством рекламы.
Например, среди российских серверов ведущее место по представлению финансовой информации занимает сервер РИА "РосБизнесКонсалтинг" (www.rbc.ru). Другим примером Web-сайта, предоставляющего как бесплатную, так и платную информацию по широкому спектру рыночных отношений, фирмах и товарах, является Web-сервер Информационная коммерческая система "Международные информационные рынки" (www.icsmir.ru).
Торговые и финансовые системы представляют сайты, оказывающие пользователям различные услуги от продажи товаров до проведения финансовых операций. Эти сайты непосредственно реализуют деловые процессы категорий В2С – продажа товаров конечным потребителям, С2С – взаимодействие между физическими лицами и В2В – ведение бизнеса между предприятиями.
В заключение следует отметить, что выделенные функциональные категории коммерческих Web-сайтов позволяют продемонстрировать две основные задач, стоящие перед их владельцами: привлечение посетителей на сервер и получение как можно большего числа повторных посещений сервера. Первоначальное посещение сервера зависит от группы серверов управления трафиком, благодаря которым пользователи могут узнать о существовании сервера. Однако дальнейший успех может быть достигнут только при условии значительного количества повторных посещений сервера пользователями за счет выполнения сервером функций второй группы, то есть предоставления пользователям качественных услуг – информации, продажи продуктов или удовлетворения других их желаний и потребностей.
ЗАКЛЮЧЕНИЕ
В рыночных отношениях, к которым перешла Россия, своевременность, достоверность и полнота информации являются эффективным средством маркетинговой, финансово-кредитной, инвестиционной и другой деятельности. Современный период жизни общества характеризуется небывало высоким ростом объема информации. К известным ранее видам ресурсов – материальным, трудовым, энергетическим, финансовым – прибавился новый, ранее не учитываемый вид – информационный ресурс. Только на основе своевременного пополнения, накопления, переработки информационного ресурса, то есть владения достоверной, полной и своевременной информацией, возможно рациональное управление любой сферой человеческой деятельности, правильное принятие решений. Основная задача информатики – создание материально-технической базы для удовлетворения информационных потребностей промышленной и деловой сфер, органов государственного управления и других областей человеческой деятельности.
Современная материально-техническая база информатики позволяет широко использовать автоматизированные рабочие места (АРМ) специалистов во всех сферах и на различных уровнях управленческой деятельности, создавать вычислительные системы, которые в пределах специализированной предметной области способны принимать решения на уровне экспертов-профессионалов, и информационно-коммуникационные сети, формируемые на базе ЭВМ и систем передачи данных. Особенностью вычислительных сетей является не только приближение аппаратных средств непосредственно к местам возникновения и использования данных, но и разделение функций обработки и управления на отдельные составляющие с целью их эффективного распределения между несколькими ЭВМ, а также обеспечение надежного и быстрого доступа пользователей к информационно-вычислительным ресурсам и организация коллективного использования этих ресурсов. Последнее особенно ярко проявляется в Интернете.
Влияние Интернета коснулось как внешних отношений между компаниями и их партнерами или клиентами, так и внутренней структуры самих компаний. Появились не только новые направления ведения бизнеса, но и принципиально изменились уже существующие. Исследования показывают, что компании, недоучитывающие потенциал электронного бизнеса и электронной коммерции, могут утратить свои коммерческие позиции под натиском более способных к адаптации в условиях новых реалий рынка конкурентов. Чтобы такого не произошло, необходимо чутко следить за развитием современных информационных технологий, стараться быть на шаг впереди рынка по использованию инноваций. Современное состояние электронной коммерции находится только на начальном этапе своего развития, но уже сегодня путь, пройденный за последние годы, захватывает дух и заставляет задуматься о том, куда придет мир в ближайшем будущем. Хочется надеяться, что Россия выберет правильный путь и ее развитие будет определяться объективными факторами развития мировой экономики, в которой электронные формы взаимодействия с каждым годом играют все более значимую роль и становятся обязательными элементами для интеграции страны в мировую экономику.
В условиях перехода к рыночным отношениям интенсивно развиваются новые формы организации труда, производственных и межличностных отношений, растет потребность в разнообразной информации и, в частности, в оперативных сведениях коммерческого и правового характера. Все эти изменения требуют, чтобы будущие специалисты с высшим образованием, являясь основными пользователями компьютерных информационных систем, были готовы к работе в новых условиях, владели основами информационных технологий, умели оценивать действия информационных систем и использовать телекоммуникационные сети для ведения рекламной, торговой, финансовой и другой деятельности в режиме реального времени.
Рекомендуемая литература
Основная:
1. Информатика. Базовый курс. Учебник для вузов под ред. С. В. Симоновича. – СПб.: Питер, 2000.
2. Острейковский В.А. Информатика: Учебник для вузов.– М.: Высшая школа, 2001.
3. Семакин И., Залогова Л. и др. Информатика. Учебник по базовому курсу. – М.: Лаборатория Базовых Знаний, 2001.
4. Угринович Н.Д. Информатика и информационные технологии. – М.: БИНОМ. Лаборатория знаний, 2003.
5. Леонтьев В.П. Новейшая энциклопедия персонального компьютера 2002. – М.: ОЛМА-ПРЕСС, 2002.
6. Об информации, информатизации и защите информации. Федеральный Закон от 20 февраля 1995 г. № 24-Ф3.
7. Указ Президента Российской Федерации "Об основах государственной политики в сфере информатизации" от 20 января 1994 г. №170.
8. Указ Президента Российской Федерации "О совершенствовании деятельности в области информатизации органов государственной власти РФ" от 21 февраля 1994 г. №361.
9. Указ Президента Российской Федерации "О совершенствовании информационно-телекоммуникационного обеспечения органов государственной власти и порядке их взаимодействия при реализации государственной политики в сфере информатизации" от 1 июля 1994 г. №1390.
Дополнительная:
10. Информатика в понятиях и терминах: книга для студентов технических ВУЗов. Под ред. В.А. Извозчикова. – М.: Просвещение, 2002.
11. Малышев В.Н. Информатика. Вводный курс: Учебное пособие. – Екатеринбург: УрГУПС, 2001.
12. Малышев В.Н. Информатика. Курс лекций, Екатеринбург: УрГУПС, 2004.
13. Журнал "Connect!Мир связи". – М.: Изд-во "Connect".
14. Газета "Компьютерная неделя PC WEEK/RE". – М.: Изд-во "СК Пресс"
15. Журнал "Информатика".
16. Сафонов В. О. Экспертные системы – интеллектуальные помощники специалистов. – СПб.: Санкт-Петербургская организация общества "Знание", 1992.
17. Крысин А. В. Информационная безопасность. Практическое руководство. – М.: СПАРРК, К.: ВЕК+, 2003.
18. Успенский И.В. Энциклопедия Интернет-бизнеса. – СПб.: Питер, 2001.
19. Малышев В.Н. Основы работы с текстовым редактором MS WORD: Учебно-методическое руководство. Екатеринбург: УрГУПС, 2001.
20. Малышев В.Н. Табличный процессор Microsoft Excel: Учебно-методическое издание, 2-е исправл. и доп. – Екатеринбург: УрГУПС, 2006.
* Энтропия в теории информации – мера неопределенности ситуации с конечным или счетным числом исходов. Пример неопределенной ситуации – опыт с несколькими возможными исходами.
[1] Транзакция – 1. В диалоговых системах это прием порции данных (сообщения или запроса) от пользователя, ее обработка и выдача ответного сообщения. 2. В базах данных и файловых системах это выполнение элементарной целостной операции над данными (например, удаление, модификация или добавление записи), в течение которой база данных или файловая система находятся в некорректном состоянии.
* Бод – скорость передачи данных по каналу связи, равная один бит в секунду.
* Хост – любой компьютер, подключенный к Интернету.
Дата добавления: 2018-11-25; просмотров: 436;