Подсистема хранения данных
Многомерное хранилище данных может быть организовано в виде одной из следующих структур:
· физической структуры, называемой MOLAP (Multidimensional OLAP), в которую с определенной периодичностью загружаются данные из файлов-источников, принадлежащих базам оперативных данных (например, один раз в день). Типичным инструментальным средством, поддерживающим MOLAP, являются Oracle Express (Oracle), Power Play (Cognos Corp), DataDirect (INTERSOLV);
· виртуальной структуры, называемой ROLAP (Relational OLAP), которая динамически используется при запросах, вызывающих физическое манипулирование с файлами-источниками из реляционных баз оперативных данных (формирование ответа на запрос к ИХ «на лету»). ROLAP-система рассматривается просто как надстройка над реляционными базами данных, обеспечивающая удобный интерфейс пользователя. Типичными инструментальными средствами, поддерживающими ROLAP, являются MetaCube (Informix), Business-Objects (BusniessObjects) и др.;
· гибридной структуры, называемой HOLAP (Hybrid OLAP), которая используется при построении многоуровневых информационных хранилищ, применяемых на разных уровнях управления больших корпораций. Типичным инструментальным средством, поддерживающим HOLAP, является SAS System (SAS Institute).
Рис. 12.8. Архитектура информационного хранилища (ИХ)
Сравнительный анализ применения MOLAP и ROLAP хранилищ представлен в табл. 12.4.
Таблица 124. Сравнительный анализ применения MOLAP и ROLAP ИХ
Параметры | MOLAP | ROLAP |
Объем хранилища | 10-50 Гбайт | Неограничен |
Требования к серверу | Специализированный OLAP-сервер с высоким быстродействием | SQL-сервер |
Скорость доступа к хранилищу | Не зависит от транзакций оперативной обработки данных | Зависит от транзакций оперативной обработки данных |
Скорость ответа на запрос | Не зависит от структуры данных | Зависит от числа обрабатываемых таблиц |
Кроссмерные функции над показателями (формульные вычисления) | Встроены | Ограничены |
Обновление данных | С определенной периодичностью | По мере возникновения |
Реорганизация (модификация состава показателей и измерений) | Пересоздание и перезагрузка хранилища | Реструктуризация отдельных таблиц |
Специализация измерений для показателей | Разреженный для всех измерений гиперкуб или специализированные поликубы | Динамическое представление размерности |
Анализ параметров использования MOLAP и ROLAP информационных хранилищ показывает, что внедрение и эксплуатация ROLAP-систем являются более простыми и дешевыми по сравнению с MOLAP-системами, но уступают последним в эффективности оперативного анализа данных.
Подсистема метаинформации (репозиторий)
Репозиторий представляет собой описание структуры информационного хранилища: состава показателей, иерархий агрегации измерений, форматов данных, используемых функций, физического размещения на сервере, прав доступа пользователей, частоты обновления.
Важнейшей функцией репозитория является представление схем отображения структуры данных файлов-источников на структуре данных ИХ, в соответствии с которой осуществляется периодическая загрузка MOLAP-хранилища или непосредственная реализация запросов «на лету» в ROLAP-хранилищах.
В репозиторий задается также схема отображения структуры ИХ на схемах представлений данных пользователей или витринах данных. Через репозиторий осуществляется интерпретация запросов к ИХ на проведение оперативного анализа данных.
Отображение данных между источниками данных и ИХ, ИХ и представлением данных осуществляется либо через механизм межуровневого взаимодействия, либо через процедуры преобразования данных.
Подсистема преобразования данных (загрузки хранилища)
Подсистема загрузки ИХ создается только для MOLAP-систем. Для ROLAP-систем в процессе выполнения запросов осуществляется преобразование данных из файлов-источников. В том и другом случае требуется выполнение следующих основных функций:
· сбор данных (Data Acquisition);
· очистка данных (Data Cleaning);
· агрегирование данных (Data Consolidation).
Сбор данных предполагает передачу данных из источников в ИХ в соответствии со схемой отображения, представленной в репозиторий.
В процессе очистки данных проверяется непротиворечивости (целостности), исключение дублирования данных, отбраковка шумовых (случайных) данных, восстановление отсутствующих данных, приведение данных к единому формату.
В случае необходимости агрегирования данных осуществляется суммирование итогов по заданным в репозитории признакам агрегации.
Подсистема представления данных (организации витрин данных)
Под витриной данных (Data Mart) понимается предметно-ориентированное хранилище, как правило, агрегированной информации, предназначенное для использования группой пользователей обычно из 10 - 15 человек в рамках конкретного вида деятельности предприятия, например маркетинга, инжиниринга, финансового менеджмента и т.д.
Как правило, витрины данных являются подмножествами общего хранилища компании, которое служит для них источником. В принципе витрины данных могут создаваться независимо друг от друга и общего хранилища, однако в этом случае возникает проблема согласования множества представлений данных. Обычно общее информационное хранилище и витрины данных разрабатываются параллельно.
Дата добавления: 2015-07-30; просмотров: 1083;