Интеллектуальный анализ данных.
Data Mining переводится как «добыча» или «раскопка данных». Аналогично используется термин «обнаружение знаний в базах данных» (knowledge discovery in databases) и «интеллектуальный анализ данных». Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связно с новым витком в развитии средств и методов обработки данных.
До начала 90-х годов, казалось, не было необходимости переосмысливать ситуацию в этой области, так как все соответствовало направлению, которое называлось прикладной статистикой. Однако попытки применить теоретические основы этой науки для решения реальных задач в большинстве случаев оказываются бесплодными. Но на это не обращали внимания, так как практика применялась главным образом для обработки небольших локальных баз данных. Однако в связи с совершенствованием технологий записи и хранения данных в самых различных областях объемы баз данных значительно выросли.
Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Объемы информации выросли и без продуктивной переработки потоков сырых данных нужны новые технологии.
Специфика современных требований к такой переработке следующая:
- Данные имеют неограниченный объем.
- Данные являются разнородными (количественными, качественными, текстовыми).
- Результаты должны быть конкретными и понятными.
- Инструменты для обработки сырых данных должны быть просты в использовании.
Традиционные математические приемы и статистика стали непригодны для решения возникших проблем. Главная причина – концепция усреднения по выборке, приводящая к операциям над фиктивными величинами. Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driver data mining) и для «грубого» разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP) [24].
В основу современной технологии Data Mining (discavery-driver data mining) положена концепция шаблонов (патеров), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме.
Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей.
Приемы заданий на такой поиск при использовании Data Mining приведены в табл.7.5 [39].
Таблица 7.5 – Примеры формулировок задач при использовании
методов OLAP и Data Mining.
OLAP | Data Mining |
Каковы средние показатели травматизма для курящих и некурящих? | Какие факторы лучше всего предсказывают несчастные случаи? |
Каковы средние размеры телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов (отказавшихся от услуг телефонной компании)? | Какие характеристики отличают клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании? |
Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карточке? | Какие схемы покупок характерны для мошенничества с кредитными карточками? |
В чем же разница между средствами Data Mining и средствами OLAP? (On-line Analinical Processing, OLAP – приложения, позволяющие проводить анализ в реальном масштабе времени). OLAP – это часть технологий, направляемых на поддержку принятия решения. Обычные средства формирования запросов и отчетов описывают саму базу данных. Технология OLAP используется для ответа на вопрос, почему некоторые вещи являются такими, какими они предстают в действительности. При этом пользователь сам формирует серию запросов к базе данных для подтверждения или отклонения эти гипотез. Средства Data Mining отличаются от средств OLAP тем, что вместо проверки предполагаемых взаимозависимостей, они на основе имеющихся данных могут производить модели, позволяющие количественно оценить степень влияния исследуемых факторов. Кроме того, средства Data Mining позволяют создавать новые гипотезы о характере известных, но реально существующих отношений в данных.
Важное положение Data Mining – нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge). К обществу пришло понимание, что сырые данные (raw data) содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены достаточно ценные сведения [40] (рис.7.33).
В целом технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро – один из основателей этого направления:
Data Mining – это процесс обнаружения в сырых данных: ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Рис.7.33 – Уровни знаний, извлекаемых из данных.
Сфера применения Data Mining достаточно обширна, ее можно применять в любых приложениях, где имеются какие-либо данные. В первую очередь методы Data Mining сегодня актуальны для коммерческих предприятий, которые развертывают проекты на основе информационных хранилищ данных (Data Warehousing). Опыт многих таких предприятий показывает, что отдача от использования Data Mining может достигать 1000%.
Например, известны сообщения об экономическом эффекте, в 10-70 раз превысившем первоначальные затраты от 350 до 750 тыс.долл. Известны сведения о проекте в 20 млн. долл., который окупился всего за 4 месяца. Другой пример – годовая экономия 700 тыс.долл. за счет внедрения Data Mining в сети универсамов в Великобритании [41].
Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. С помощью методов Data Mining можно получить ощутимые преимущества в конкурентной борьбе.
Кратко охарактеризуем некоторые возможные бизнес-приложения Data Mining в различных сферах.
Розничная торговля. Предприятия розничной торговли сегодня собирают подробную информацию о каждой отдельной покупке, используя кредитные карточки с маркой магазина и компьютеризированные системы контроля. Вот типичные задачи, которые можно решать с помощью Data Mining:
- анализ покупательской корзины;
- исследование временных шаблонов;
- создание прогнозирующих моделей.
Банковское дело. Достижения технологии Data Mining используются в банковском деле для решения следующих распространенных задач:
- выявление мошенничества с кредитными карточками;
- сегментация клиентов;
- прогнозирование изменений клиентуры.
Телекоммуникации. В области телекоммуникаций методы Data Mining помогают компаниям более энергично продвигать свои программы маркетинга и ценообразования, чтобы удерживать существующих клиентов и привлекать новых. Среди типичных мероприятий отметим следующие:
- анализ записей о подробных характеристиках вызовов;
- выявление лояльности клиентов.
Страхование. Страховые компании в течение ряда лет накапливают большие объемы данных:
- выявление мошенничества;
- анализ риска.
Другие приложения в бизнесе:
- развитие автомобильной промышленности;
- политика гарантий;
- поощрение часто летающих клиентов.
Для решения перечисленного ряда задач, неизбежно возникающих при организации и эксплуатации информационного хранилища, существует специализированное программное обеспечение. Современные средства администрирования хранилища данных обеспечивают эффективное взаимодействие с инструментарием Data Mining.
В качестве примера можно привести два продукта компании SAS Institute: SAS Warehouse Administrator и SAS Enterprise Miner, степень взаимной интеграции которых позволяет использовать при реализации проекта Data Mining также и метаданные из информационного хранилища.
Дата добавления: 2015-02-16; просмотров: 2603;