Плохая визуализация
Результаты визуализации иногда могут вводить пользователя в заблуждение. Приведем простой пример плохой визуализации. Допустим, мы имеем базу "Прибыль компании А" за период с 2000 по 2005 года, она представлена в табличном виде в таблице 6.1
Таблица 6.1. Прибыль компании А
год | прибыль | |
Построим гистограмму в Excel по этим данным.
Гистограмма представляет собой визуальное изображение распределения данных.
Эта информация отображается при помощи серии прямоугольников или полос одинаковой ширины, высота которых указывает количество данных в каждом классе.
Используя все значения построения графика, принятые по умолчанию, получаем гистограмму, приведенную на рисунке 6.3:
Рисунок 6.3 - Гистограмма, минимальное значение оси y равно 1096
Данный рисунок демонстрирует значительный рост прибыли компании А за период с 2000 по 2005 года. Однако, если мы обратим внимание на ось y, показывающую величину прибыли, то увидим, что эта ось пересекает ось x в значении, равном 1096. Фактически, ось y со значениями от 1096 до 1108 вводит пользователя в заблуждение. Изменив значения параметров, отвечающих за формат оси y, получаем график, приведенный на рисунке 6.4.
Рисунок 6.4 - Гистограмма, минимальное значение оси y равно 0
Ось у со значениями от 0 до 2000 дает пользователю правильную информацию о незначительном изменении прибыли компании.
Если речь идет о большой размерности и сложности исходных данных, средства визуализации обеспечивают их резкое уменьшение, конденсируя, быть может, миллионы записей данных в простые, легкие для понимания и манипулирования представления. Визуализацию можно считать ключевым фактором в исследовании данных, полученных при помощи инструментов Data Mining.
7 СФЕРЫ ПРИМЕНЕНИЯ DATA MINING
В лекции рассмотрены основные сферы деятельности человека, где может успешно применяться технология Data Mining. Вводятся понятия Web Mining, Text Mining, Call Mining.
В предыдущих лекциях мы рассмотрели задачи и методы Data Mining. Однако вводная часть не будет полной, если не рассмотреть, для каких конкретных задач и в каких сферах жизнедеятельности человека можно использовать эту технологию. Следует сразу сказать, что область использования Data Mining ничем не ограничена - она везде, где имеются какие-либо данные. В этой лекции мы рассмотрим всевозможные сферы применения Data Mining.
Цель этого обзора есть не перечисление абсолютно всех сфер применения, а знакомство с теми направлениями, где Data Mining работает и дает реальные результаты.
Следует отметить, что на сегодняшний день наибольшее распространение технология Data Mining получила при решении бизнес-задач. Возможно, причина в том, что именно в этом направлении отдача от использования инструментов Data Mining может составлять, по некоторым источникам, до 1000% и затраты на ее внедрение могут достаточно быстро окупиться.
Сейчас технология Data Mining используется практически во всех сферах деятельности человека, где накоплены ретроспективные данные.
Мы будем рассматривать четыре основные сферы применения технологии Data Mining подробно: наука, бизнес, исследования для правительства и Web-направление.
· Применение Data Mining для решения бизнес-задач. Основные направления: банковское дело, финансы, страхование, CRM, производство, телекоммуникации, электронная коммерция, маркетинг, фондовый рынок и другие.
· Применение Data Mining для решения задач государственного уровня. Основные направления: поиск лиц, уклоняющихся от налогов; средства в борьбе с терроризмом.
· Применение Data Mining для научных исследований. Основные направления: медицина, биология, молекулярная генетика и генная инженерия, биоинформатика, астрономия, прикладная химия, исследования, касающиеся наркотической зависимости, и другие.
· Применение Data Mining для решения Web-задач. Основные направления: поисковые машины (search engines), счетчики и другие.
Дата добавления: 2015-09-28; просмотров: 1268;