Data Mining (добыча знаний)
Появление и широкое использование хранилищ данных способствовало развитию такого направления их обработки, как Data Mining (переводится как «добыча» или «раскопка данных»). Нередко наряду с Data Mining встречаются слова «обнаружение знаний в базах данных» (knowledge discovery in databases) и «интеллектуальный анализ данных». Их можно считать синонимами Data Mining.
В связи с совершенствованием технологий записи и хранения данных и появлением хранилищ данных на людей обрушились колоссальные потоки информационной руд в самых различных областях. Стало ясно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку или руду данных.
Специфика современных требований к обработке данных в хранилищах состоит в том, что данные имеют неограниченный объем, данные являются разнородными (количественными, качественными, текстовыми). При этом результаты обработки должны быть конкретны и понятны, а инструменты для обработки сырых данных должны быть просты в использовании.
Следует отметить, что методы Data Mining являются развитием традиционной математической статистики. Однако методы математической статистики используются главным образом для заранее сформулированных гипотез.
В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей.
Примеры заданий на такой поиск при использовании Data Mining могут быть следующими:
· Имеются ли характерные портреты клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании?
· Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными карточками?
Важное положение Data Mining — нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge). К информационному сообществу пришло понимание того, что сырые данные (raw data) содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки полезной информации.
Data Mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Уровни данных, извлекаемые из данных, показаны на рисунке 1.3.
Рис. 1.3.
Сфера применения Data Mining ничем не ограничена — она везде, где имеются какие-либо данные. Но в первую очередь методы Data Mining сегодня используются там, где развиваются проекты хранилищ данных (Data Warehousing).
Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Они осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе.
Можно привести примеры некоторых возможных бизнес-приложения Data Mining.
Предприятия розничной торговли сегодня собирают подробную информацию о каждой отдельной покупке, используя кредитные карточки с маркой магазина и компьютеризованные системы контроля. Вот типичные задачи, которые можно решать с помощью Data Mining в сфере розничной торговли:
· Анализ покупательской корзины (анализ сходства) предназначен для выявления товаров, которые покупатели стремятся приобретать вместе. Знание покупательской корзины необходимо для улучшения рекламы, выработки стратегии создания запасов товаров и способов их раскладки в торговых залах.
· Исследование временных шаблонов помогает торговым предприятиям принимать решения о создании товарных запасов. Оно дает ответы на вопросы типа: «Если сегодня покупатель приобрел видеокамеру, то через какое время он вероятнее всего купит новые батарейки и пленку?».
· Создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением, например, покупающих товары известных дизайнеров или посещающих распродажи. Эти знания нужны для разработки точно направленных, экономичных мероприятий по продвижению товаров.
Достижения технологии Data Mining используются в банковском деле для решения следующих распространенных задач:
· Выявление мошенничества с кредитными карточками. Путем анализа прошлых транзакций, которые впоследствии оказались мошенническими, банк выявляет некоторые стереотипы такого мошенничества.
· Сегментация клиентов. Разбивая клиентов на различные категории, банки делают свою маркетинговую политику более целенаправленной и результативной, предлагая различные виды услуг разным группам клиентов.
· Прогнозирование изменений клиентуры. Data Mining помогает банкам строить прогнозные модели ценности своих клиентов и соответствующим образом обслуживать каждую категорию.
В области телекоммуникаций методы Data Mining помогают компаниям более энергично продвигать свои программы маркетинга и ценообразования, чтобы удерживать существующих клиентов и привлекать новых. Среди типичных мероприятий отметим следующие:
· Анализ записей о подробных характеристиках вызовов. Назначение такого анализа — выявление категорий клиентов с похожими стереотипами пользования их услугами и разработка привлекательных наборов цен и услуг.
· Выявление лояльности клиентов. Data Mining можно использовать для определения характеристик клиентов, которые, один раз воспользовавшись услугами данной компании, с большой долей вероятности останутся ей верными. В итоге средства, выделяемые на маркетинг, можно тратить там, где отдача больше всего.
Страховые компании в течение ряда лет накапливают большие объемы данных. Здесь обширное поле деятельности для методов Data Mining:
· Выявление мошенничества. Страховые компании могут снизить уровень мошенничества, отыскивая определенные стереотипы в заявлениях о выплате cтрахового возмещения, характеризующих взаимоотношения между юристами, врачами и заявителями.
· Анализ риска. Путем выявления сочетаний факторов, связанных с оплаченными заявлениями, страховщики могут уменьшить свои потери по обязательствам. Известен случай, когда в США крупная страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышают суммы по заявлениям одиноких людей. Компания отреагировала на это новое знание пересмотром своей общей политики предоставления скидок семейным клиентам.
В литературе по Data Mining можно найти много других примеров для различных сфер деятельности.
Дата добавления: 2016-02-09; просмотров: 1661;