Использование хранилища данных

Одно из направлений интеграции информационных технологий связано с использованием хранилищ данных. Дадим общую характеристику технологий хранилищ данных.

Хранилище данных (Data warehouse) — это предметно-ориентированное, интегрированное, привязанное ко времени и неизменяемое собрание данных для поддержки про­цесса принятия управляющих решений.

Как следует из определения, технологии организации данных в хранилище отличаются следующими свойствами:

■ данные в хранилище организованы вокруг существенных аспектов прикладной деятельности организации, например, товар, покупатель, продажа и т.д. (свойство предметно-ориентированности);

■ информация в хранилище должна интегрироваться в целостную структуру, обеспечивающую возможности анализа данных (свойство интегрированности);

■ хранилище можно рассматривать как набор моментальных снимков состояния данных так, что атрибут времени всегда явно присутствует в структурах данных хранилища (свойство привязки ко времени);

■ данные, попав однажды в хранилище, никогда не изменяются, а только пополняются новыми данными из оперативных систем, где данные постоянно меняются (свойство неизменяемости).

Хранилища обладают общими характеристиками.

Одна из них - структурированность данных. Хранилища данных являются структурированными, содержат базовые данные, которые образуют единый источник для обработки данных во всех системах поддержки принятия решений.

Элементарные данные, присутствующие в хранилище, могут быть представлены в различной форме. Хранилища данных исключительно велики, поскольку в них содержатся интегрированные и детализированные данные.

Наряду с общими для всех хранилищ данных характеристиками, разные типы хранилищ могут иметь свои индивидуальные особенности. Например, в финансовых хранилищах данных проявляются недостатки, связанные с тем, что сведения из финансовых хранилищ не совпадают с данными существующей финансовой среды.

Структурные компоненты хранилища данных.

Кратко охарактеризуем основные компоненты технологий хранилищ данных на примере описания хранилища данных для предприятия (Рис. 1).

Оперативные данные могут собираться из различных источников:

иерархические и сетевые базы данных первого поколения, хранящие корпоративные

данные;

реляционные базы данных, хранящие оперативные данные различных подразделений

■ закрытые сервера;

■ внешние системы (Интернет, базы данных поставщиков и т. д.).

Поступившие оперативные данные очищаются, интегрируются и складываются в реляционное хранилище. Такие данные доступны для анализа при помощи средств построения отчетов. Затем данные (полностью или частично) подготавливаются с использованием средств переноса и трансформации данных для OLAP-анализа, который реализуется применением средств доступа и анализа данных. Назначение систем класса OLAP (Online Analytical Processing - оперативная аналитическая обработка) — предоставить пользователям гибкий, интуитивно понятный и простой доступ к данным.

Рис. 1. Основные компоненты и потоки хранилища данных

Важнейшим элементом хранилища являются так называемые метаданные.

Метаданные описывают структуру, размещение, трансформацию данных, используемых любыми процессами хранилища.

Метаданные могут быть востребованы для различных целей, например: извлечения и загрузки данных; обслуживания хранилища и запросов.

Метаданные для различных процессов могут иметь различную структуру, т. е. для одного и того же элемента данных может существовать несколько вариантов метаданных

Информационные потоки данных в хранилище. В технологии хранилищ данных можно выделить пять основных информационных потоков данных (Рис. 2).

Входной поток представляет процессы извлечения, очистки и загрузки исходных данных в хранилище. Поступающие данные в хранилище подвергаются перестройке в соответствии с определенными требованиями. Перестройка может включать следующие действия:

• очистку данных;

• преобразование данных;

• проверку внутренней непротиворечивости данных и их непротиворечивости по отношению к данным хранилища.

Сложность процесса извлечения информации зависит от степени согласованности между различными источниками информации.

Восходящий поток связан повышением ценности сохраняемых в хранилище данных и включает следующие процессы:

• обобщение данных посредством, как реляционных операций, так и проведения сложного статистического анализа данных для получения удобных и полезных для пользователя представлений информации;

• упаковку данных с преобразованием в более удобный формат представления (электронные таблицы, диаграммы и многое другое);

• распределение исходных данных на соответствующие группы для повышения их подготовленности к использованию и доступности.

Нисходящий поток определяет архивирование и резервное копирование данных. Нисходящий поток включает также процедуры, обеспечивающие возможность восстановления текущего состояния хранилища в случае потери данных после сбоев в программном или аппаратном обеспечении.

Выходной поток — предоставление данных пользователям. Для его формирования пользователю должна предоставляться среда с эффективно работающими инструментами, позволяющими создавать разнообразные запросы, обеспечивая доступ к наиболее подходящим данным хранилища. Данный поток может содержать и публикации различных объектов, которые доставляются по рассылке на рабочие станции конечным пользователям.

Метапоток определяет управление метаданными. Он связан с перемещением самих метаданных. Поскольку метаданные содержат описание информации хранилища данных, которое со временем меняется, то и сам метапоток должен соответственно обновляться во времени.

Глобальные хранилища данных. Глобальные хранилища данных предназначены для глобального информационного представления корпорации. Различают три типа таких хранилищ:

■ географически преобладающая обработка данных (например, необходимо интегри­ровать бизнес в Москве с бизнесом в Ростове и так далее);

■ функционально преобладающая обработка данных (производственная деятельность должна быть интегрирована с поставками, которые необходимо интегрировать с продажами, а те - с исследованиями и так далее);

■ отраслевая преобладающая обработка данных (например, требуется интегрировать печатное дело с консалтингом, который подлежит интеграции с бизнесом в сфере медицинского оборудования, а тот - со специализацией в области программного обеспечения).

Особенность глобального хранилища данных заключается в том, что на глобальном уровне зачастую очень мало общих измерений. Единственное общее измерение — это деньги. И интеграция бизнеса может быть достигнута только с его помощью.

Помимо этого, глобальное хранилище данных подвержено воздействию перемен. Если в прочих хранилищах изменения базовых данных случаются нечасто, то для этого типа хранилищ они происходят постоянно и в самом основании. Поэтому структура и технология, используемая для размещения и обслуживания глобального хранилища данных, должна позволять поддерживать эти непрерывные перемены.








Дата добавления: 2016-05-11; просмотров: 1299;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.006 сек.