Метаданные
В завершение лекции о данных рассмотрим понятие метаданных.
Метаданные (Metadata) - это данные о данных.
В состав метаданных могут входить: каталоги, справочники, реестры.
Метаданные содержат сведения о составе данных, содержании, статусе, происхождении, местонахождении, качестве, форматах и формах представления, условиях доступа, приобретения и использования, авторских, имущественных и смежных с ними правах на данные и др.
Метаданные - важное понятие в управлении хранилищем данных.
Метаданные, применяемые при управлении хранилищем, содержат информацию, необходимую для его настройки и использования. Различают бизнес-метаданные и оперативные метаданные.
Бизнес-метаданные содержат бизнес-термины и определения, принадлежность данных и правила оплаты услуг хранилища.
Оперативные метаданные - это информация, собранная во время работы хранилища данных:
· происхождение перенесенных и преобразованных данных;
· статус использования данных (активные, архивированные или удаленные);
· данные мониторинга, такие как статистика использования, сообщения об ошибках и т.д.
Метаданные хранилища обычно размещаются в репозитории. Это позволяет использовать метаданные совместно различным инструментам, а также процессам при проектировании, установке, эксплуатации и администрировании хранилища.
Выводы. В лекции были рассмотрены понятие данных, объектов и атрибутов, их характеристики, типы шкал, понятие набора данных и его типы. Описаны возможные форматы хранения данных. Введены понятия базы данных, системы управления базами данных, метаданных.
3 МЕТОДЫ И СТАДИИ DATA MINING
В лекции описаны стадии Data Mining и действия, выполняемые в рамках этих стадий. Рассмотрены известные классификации методов Data Mining. Приведена сравнительная характеристика некоторых методов, основанная на их свойствах.
Основная особенность Data Mining - это сочетание широкого математического инструментария (от классического статистического анализа до новых кибернетических методов) и последних достижений в сфере информационных технологий. В технологии Data Mining гармонично объединились строго формализованные методы и методы неформального анализа, т.е. количественный и качественный анализ данных.
К методам и алгоритмам Data Mining относятся следующие: искусственные нейронные сети, деревья решений, символьные правила, методы ближайшего соседа и k-ближайшего соседа, метод опорных векторов, байесовские сети, линейная регрессия, корреляционно-регрессионный анализ; иерархические методы кластерного анализа, неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы; методы поиска ассоциативных правил, в том числе алгоритм Apriori; метод ограниченного перебора, эволюционное программирование и генетические алгоритмы, разнообразные методы визуализации данных и множество других методов.
Большинство аналитических методов, используемые в технологии Data Mining - это известные математические алгоритмы и методы. Новым в их применении является возможность их использования при решении тех или иных конкретных проблем, обусловленная появившимися возможностями технических и программных средств. Следует отметить, что большинство методов Data Mining были разработаны в рамках теории искусственного интеллекта.
Метод (method) представляет собой норму или правило, определенный путь, способ, прием решений задачи теоретического, практического, познавательного, управленческого характера.
Понятие алгоритма появилось задолго до создания электронных вычислительных машин. Сейчас алгоритмы являются основой для решения многих прикладных и теоретических задач в различных сферах человеческой деятельности, в большинстве - это задачи, решение которых предусмотрено с использованием компьютера.
Алгоритм (algorithm) - точное предписание относительно последовательности действий (шагов), преобразующих исходные данные в искомый результат.
Дата добавления: 2015-09-28; просмотров: 975;