Архитектура систем оперативного анализа данных

 

Современные системы поддержки принятия решений и инфор­мационные системы руководителей основаны на применении спе­циализированных информационных хранилищ (ИХ) и технологий оперативного анализа данных (ОLАР)

ИХ представляет собой базу обобщенной информации, фор­мируемую из множества внешних и внутренних источников, на основе которой выполняются статистические группировки и интеллектуальный анализ данных. По сравнению с базами данных для оперативной обработки транзакций (транзакционных БД) ИХ обеспечивают более гибкое и простое формирование произволь­ных справочно-аналитических запросов, а также применение спе­циализированных методов статистического и интеллектуального анализа данных.

В основе информационного хранилища лежит понятие мно­гомерного информационного пространства или гиперкуба (рис. 12.7), в ячейках которого хранятся анализируемые числовые по­казатели (например, объемы оборота, издержек, инвестиций и т.д.). Измерениями (осями) гиперкуба являются признаки анали­за (например, время, группа продукции, регион, тип процесса, тип клиента и др.). При хранении признаки анализа отделяются от фактических данных, образуя так называемую инвертирован­ную организацию хранения данных или структуру данных типа «звезда».

Рис. 2.1. Многомерная организация информационного хранилища

 

К особенностям хранимой информации в ИХ относятся:

• интеграция или обобщение данных в ИХ из транзакционных баз данных по всем бизнес-процессам и структурным подраз­ делениям предприятия в виде единого многомерного инфор­мационного пространства. Например, организуется хранение показателей объемов производства, сбыта, сервиса и т.д. в продуктовом, территориальном, отраслевом, временном и других разрезах;

• произвольность агрегации данных на основе отделения от фак­тических данных независимых и равноправных измерений информационного пространства (признаков анализа инфор­мации, разрезов) в виде иерархий агрегации. Например, ре­гиональный признак анализа представляется в виде иерархии агрегации: «область - район - город -'село», временной при­знак «год - квартал - месяц -день» и т.д.;

• обязательное хранение временного признака в данных1, даю­щего возможность отслеживать динамику изменения показа­телей в течение длительного периода времени;

• непротиворечивость данных во всех используемых источни­ках в течение определенного периода времени (например, дня), которая позволяет обеспечить единую точку зрения всех пользователей на экономическую систему;

• обеспечение множества представлений структуры информа­ционного хранилища для различных категорий пользовате­лей: руководителей, аналитиков, менеджеров направлений де­ятельности. Отбор набора показателей и признаков анализа определяет предметную ориентированность информационно­го хранилища или организацию витрин данных.

С технологической точки зрения к архитектуре ИХ предъяв­ляются общие требования:

• Единообразно определенная структура многомерных данных с равноправными измерениями информационного простран­ства.

• Пользователь не должен знать о том, где хранятся данные, как они организованы и как обрабатываются.

• Поддержка многопользовательского режима оперативного анализа в среде «клиент-сервер».

• Легкая адаптация к новым информационным потребностям путем добавления новых показателей и измерений.

• Автоматическое обновление информации из оперативных баз данных.

• Выполнение запросов без ограничений на количество изме­рений и уровней их агрегации примерно с одинаковым вре­менем реакции на запрос.

• Удобный, «интуитивный» интерфейс пользователя, обеспечивающий простоту манипулирования данными.

Архитектура системы оперативного анализа данных представ­лена на рис. 2.

Рассмотрим состав основных подсистем информационного хранилища.

 

1) Подсистема хранения данных

 

Многомерное хранилище данных может быть организовано в виде одной из следующих структур:

• физической структуры, называемой МОLАР (Multidimensional ОLАР), в которую с определенной периодичностью загружа­ются данные из файлов источников, принадлежащих базам оперативных данных (например, один раз в день). Типичным инструментальным средством, поддерживающим МОLАР, являются Огас1е Ехргеss (Огас1е), Роwег Р1ау (Соgnos Согр), DataDirect (Intersolv);

 

Рис. 2. Архитектура информационного хранилища

 

• виртуальной структуры, называемой RОLАР (Rе1аtional ОLАР), которая динамически используется при запросах, вы­зывающих физическое манипулирование с файлами-источни­ками из реляционных баз оперативных данных (формирова­ние ответа на запрос к ИХ «на лету»). RОLАР-система рас­сматривается просто как надстройка над реляционными базами данных, обеспечивающая удобный интерфейс пользо­вателя. Типичными инструментальными средствами, поддерживающими RОLАР, являются МеtaCube (Informix), Business-Objects

и др.;

• гибридной структуры, называемой НОLАР (Нybrid ОLАР), которая используется при построении многоуровневых информационных хранилищ, применяемых на разных уровнях управления больших корпораций. Типичным инструментальным средством, поддерживающим НОLАР, является SAS System (SAS Institute).

Анализ параметров использования МОLАР и RОLАР инфор­мационных хранилищ показывает, что внедрение и эксплуатация RОLАР-систем являются более простыми и дешевыми по срав­нению с МОlАР-системами, но уступают последним в эффектив­ности оперативного анализа данных.

 

2) Подсистема метаннформации (репознторий)

 

Репозиторий представляет собой описание структуры инфор­мационного хранилища: состава показателей, иерархий агрега­ции измерений, форматов данных, используемых функций, фи­зического размещения на сервере, прав доступа пользователей, частоты обновления.

Важнейшей функцией репозитория является представление схем отображения структуры данных файлов-источников на структуре данных ИХ, в соответствии с которой осуществляется периодическая загрузка МОLAP-хранилища или непосредствен­ная реализация запросов «на лету» в MОLАР-хранилищах.

В репозитории задается также схема отображения структуры ИХ на схемах представлений данных пользователей или витри­нах данных. Через репозитории осуществляется интерпретация запросов к ИХ на проведение оперативного анализа данных.

Отображение данных между источниками данных и ИХ, ИХ и представлением данных осуществляется либо через механизм межуровневого взаимодействия, либо через процедуры преобра­зования данных.

 

3) Подсистема преобразования данных (загрузки хранилища)

 

Подсистема загрузки ИХ создается только для МОLАР-систем. Для RОLАР-систем в процессе выполнения запросов осуще­ствляется преобразование данных из файлов-источников. В том и другом случае требуется выполнение следующих основных фун­кций:

• сбор данных (Data Acquisition);

• очистка данных (Data Cleaning);

• агрегирование данных (Data Concolidation).

Сбор данных предполагает передачу данных из источников в ИХ в соответствии со схемой отображения, представленной в репозитории.

В процессе очистки данных осуществляются проверка непро­тиворечивости (целостности), исключение дублирования данных, отбраковка шумовых (случайных) данных, восстановление отсут­ствующих данных, приведение данных к единому формату.

В случае необходимости агрегирования данных осуществля­ется суммирование итогов по заданным в репозитории призна­кам агрегации.

 

4) Подсистема представления данных (организации витрин данных)

 

Под витриной данных (Data Mart) понимается предметно-ориентированное хранилище, как правило, агрегированной ин­формации, предназначенное для использования группой пользо­вателей обычно из 10 - 15 человек в рамках конкретного вида деятельности предприятия, например маркетинга, инжиниринга, финансового менеджмента и т.д.

Как правило, витрины данных являются подмножествами общего хранилища компании, которое служит для них источни­ком. В принципе витрины данных Ъюгуг создаваться независимо друг от друга и общего хранилища, однако в этом случае возни­кает проблема согласования множества представлений данных. Обычно общее информационное хранилище и витрины данных разрабатываются параллельно.

 

5) Подсистема оперативного анализа данных

 

Подсистема оперативного анализа, как правило, использует­ся лицами, подготавливающими информацию для принятия ре­шений, путем выполнения различных статистических группиро­вок исходных данных.

В рамках пользовательского интерфейса для оперативного анализа данных используются следующие базовые операции.

· Поворот. Добавление нового признака анализа.

· Проекция. Выборка подмножества по задаваемой совокупно­сти измерений. При этом значения в ячейках, лежащих на осипроекции, суммируются.

· Раскрытие (drill-down). Осуществляется декомпозиция призна­ка агрегации на компоненты, например, признак года разби­вается на кварталы. При этом автоматически детализируют­ся числовые показатели.

· Свертка (го11-uр/drill-uр). Операция, обратная раскрытию. При этом значения детальных показателей суммируются в агреги­руемый показатель.

· Сечение (slicе-and-dicе). Выделение подмножества данных по конкретным значениям одного или нескольких измерений.

 

6) Подсистема интеллектуального анализа данных (извлечения знаний)

 

Подсистема интеллектуального анализа данных использует­ся специальной категорией пользователей-аналитиков, которые на основе ИХ обнаруживают закономерности в деятельности предприятия и на рынке, используемые в дальнейшем для обо­снования стратегических или тактических решений. Интеллекту­альный анализ требует применения более сложных методов ана­лиза по сравнению со статистическими группировками и выпол­няется путем проведения множества сеансов.

Типичными задачами интеллектуального анализа данных яв­ляются:

• установление корреляций, причинно-следственных связей и временных связей событий, например определение местопо­ложения прибыльных предприятий;

• классификация ситуаций, позволяющая обобщать конкретные события в классы, например определение типичного профи­ля покупателя конкретных видов продукции;

• прогнозирование развития ситуаций, например прогнозирова­ние цен, объемов продаж, производства.

К основным методам интеллектуального анализа данных от­носятся:

• методы многомерного статистического анализа;

• индуктивные методы построения деревьев решений;

• нейронные сети.

 

 

7) Подсистема «Информационная система руководителя»

 

Информационная система руководителя предназначена для лиц, непосредственно принимающих решения. Поэтому интер­фейс таких систем должен быть в наибольшей степени упрощен­ным. Обычно в качестве интерфейса руководителям предприя­тий предлагается набор стандартных отчетов и графиков, настра­иваемых на потребности руководителя через систему меню. Часто в качестве интерфейса предлагаются диаграммы Ишикава («ске­лета рыбы»), представляющие собой саморазворачивающееся де­рево показателей, в котором листья ветвей раскрашиваются в разные цвета, символизирующие характер состояния показателя (нормальный, тревожный, кризисный). Лист любой ветви дерева показателей может быть развернут в таблицу значений показате­ля или графив. Подобные диаграммы применяются в таких кор­поративных ЭИС, как R/3 и ВААN IV.

 

8) Подсистема WEB-публикации

 

Подсистема WEB-публикации предполагает преобразование полученной из ИХ информации в НТМL-вид, доступный для ее просмотра удаленными клиентами с помощью широко распрост­раненных броузеров Интернета.

 

2.2 Технология проектирования ИХ

 

Интеграция множества источников данных в рамках единого информационного хранилища представляет собой трудоемкую и дорогостоящую проектную задачу. Поэтому к процессу проек­тирования систем оперативного анализа данных на основе ин­формационного хранилища в наибольшей степени относятся тре­бования: очередности внедрения компонентов ИХ, обеспечива­ющей быструю отдачу от внедрения, и адаптивности логической и физической структуры ИХ к изменяющимся в ходе проектиро­вания и эксплуатации информационным потребностям. Рассмот­рим технологическую сеть проектирования информационного хранилища (рис. 3).

 

П1. Идентификация проблемной области

 

На основе материалов предпроектного обследования (Д1) осуществляется параметризация проекта создания информацион­ного хранилища и выделяются все необходимые материальные, финансовые, людские и временные ресурсы на выполнение про­ектных работ, т.е. составляются техническое задание (Д2) и тех­нико-экономическое обоснование проекта (ДЗ). В частности, в рамках технического задания в разрезе конкретных видов дея­тельности или бизнес-процессов формулируются цели и задачи, области применения и пользователи ИХ, устанавливаются источ­ники исходных данных, определяются информационные потреб­ности пользователей.

Цели и задач». Цели построения информационного хранили­ща во многом определяют характер используемых источников данных, направлений и методов анализа извлекаемой информа­ции. В качестве целей создания ИХ могут выступать:

• реинжиниринг и непрерывный инжиниринг процессов и струк­туры управления предприятием;

• повышение качества и оперативности обоснования управлен­ческих решений на стратегическом, тактическом и оператив­ном уровнях;

• упрощение управленческого документооборота для процесса принятия управлеческих решений и др.

 

Рис. 3. Технологическая сеть проектирования информационного хранилища:

Д1 - материалы предпроектного обследования; Д2 - техническое задание; ДЗ - технико-экономическое обоснование проекта;

Д4 - логическая структура данных ИХ; Д5- схема преобразования данных; Д6 - логическая структура данных витрин; Д7 - схема размещения ИХ в сетевой вычислительной среде; Д8 - проектная документация; U1 - универсум программных средств; U2 - универсум технических средств; U3 - универсум программных средств реализации ИХ; U4 - универсум техничес­ких средств реализации ИХ; G1 - репознторий; G2 - настройка или процедуры инструментальных средств; GЗ – наполнение информационного хранилища для МОLАР-структуры; G4 - модифицированный репозиторий; G5 - модифицированные настройки или процедуры инструментальных средств; G6 - модифицированное информационное хранилище для МОLАР-структуры

 

К важнейшим задачам, которые решаются с помощью ИХ, от­носятся:

· бизнес-планирование-обоснование принятия стратегических '' решений;

· контроллинг - анализ финансово-хозяйственной деятельнос­ти и выявление резервов совершенствования бизнес-процес­сов предприятия;

· оперативный мониторинг и сравнительный анализ (bench-marking) важнейших показателей деятельности предприятия.

Круг пользователей: руководители; референты руководителей, подготавливающие информацию для принятия решений; менед­жеры функциональных подразделений; аналитики.

Области применения: анализ и прогнозирование осуществле­ния основных бизнес-процессов в разрезах типов клиентов, про­дуктов, используемых технологий, каналов распределения, на­правлений функциональной деятельности (продаж, производства, закупок, финансов, персонала) и др.

Перечень источников данных:

• внутренние источники: базы оперативных данных об объемах продаж, производства, закупок, издержках по центрам зат­рат, состоянии материальных, финансовых, людских ресур­сов;

• внешние источники: официальные статистические данные о деятельности отрасли, смежных отраслях, состоянии финан­сов; нормативная государственная информация; маркетин­говая информация о зондировании рынка, состоянии кон­курентов; коммерческие базы данных специализированныхкомпаний в области информационного бизнеса, например Reuters.

Для каждого источника данных определяются параметры: территориальное расположение, административное подчинение, периодичность обновления, конфиденциальность и достовер­ность хранимой информации, форматы данных и характеристи­ки программно-технической среды, объемы данных.

Информационные потребности пользователей. Для обоснова­ния информационных потребностей выполняется анализ функ­ций работников в рамках конкретных видов деятельности (биз­нес-процессов), например бизнес-планирования, бюджетирования, маркетинга и т.д. В результате выявляется перечень регла­ментированных информационно-справочных документов и предполагаемых направлений формирования произвольных зап­росов.

 

П2. Разработка концептуальной модели ИХ

 

Этап разработки концептуальной модели ИХ соответствует этапу логического проектирования, который выполняется на основе технического задания Д2 и технико-экономического обо­снования ДЗ. На выходе этого этапа получаются логическая структура данных ИХ Д4, схема преобразования данных Д5, ло­гическая структура данных витрин Д6 и схема представления данных Д7.

Проектирование логической структуры ИХ осуществляется на основе анализа статистики использования конкретных информа­ционно-справочных документов в процессе решения основных задач принятия решений. В результате выполнения операции про­изводятся:

· отбор признаков анализа;

· построение схем агрегации показателей;

· построение схем обобщения признаков;

· определение временного горизонта хранения показателей;

· отбор первичных и производных показателей для хранения;

· выбор типа логической структуры ИХ;

· распределение показателей по типам логической структуры.

Основными методами выполнения операции отбора и струк­туризации показателей и признаков являются матричные, графо-аналитические и тезаурусные методы, описанные в п. 4,1. В частности, большое значение имеет формирование объемно-ча­стотных характеристик использования типов показателей и при­знаков их группировки в различных типах информационно-спра­вочных запросов. На этой операции происходит также обобще­ние непосредственно сформулированных пользователями типов запросов к ИХ.

Сложность структуры данных показателей предопределяет выбор ее типа: «звезды» с однородной структурой признаков для всех показателей или «расширенной снежинки» с примене­нием нескольких типов хранилищ показателей. В последнем слу­чае осуществляется распределение показателей по типам хра­нилищ.

Проектирование процессов извлечения и схемы преобразования данных производится путем анализа выявленных на этапе иден­тификации проблемной области источников данных. На выходе операции формируется уточненный состав источников данных с определенными схемами фильтрации и агрегации данных для помещения в ИХ.

В частности, на этом этапе осуществляется анализ альтерна­тивных источников данных, например выбор из числа коммер­ческих баз данных, а также устанавливаются схемы преобразо­ваний исходных данных в хранимые структуры ИХ. Сложность схем отображения источников данных в структуру хранилища предопределяет выбор типа ИХ: МОLАР, RОLАР, НОLАР.

Проектирование логической структуры витрин и схемы пред­ставления данных предполагает распределение показателей вме­сте с измерениями по витринам данных на основе выявленных информационных потребностей пользователей. Для витрин дан­ных точно так же, как и для информационных хранилищ, проек­тируется структура данных и устанавливается схема отображе­ния структуры ИХ на структуры витрин.

Данная операция может предшествовать разработке структу­ры информационного хранилища, когда сначала создаются струк­туры витрин данных, например, по основным видам деятельнос­ти или структурным подразделениям, а затем эти структуры дан­ных интегрируются в общую структуру ИХ.

В рамках логически спроектированных витрин данных осу­ществляется выбор методов анализа данных для конкретных ка­тегорий пользователей. В частности, выявляется потребность в применении определенных видов статистического и интеллекту­ального анализа данных.

 

П3. Формализация ИХ

 

Этап формализации завершает техническое проектирование информационного хранилища. На основе спроектированной на предшествующей операции архитектуры ИХ (Д4 – Д6) и уни­версумов программно-технических средств (U1-U2) осуществ­ляется выбор схемы размещения ИХ в сетевой вычислительной среде (Д7) и программно-технических средств реализации ИХ (U3-U4).

Выбор схемы размещения ИХ в сетевой вычислительной среде осуществляется в зависимости от выбранного типа организации и предполагает определение числа уровней хранения:

• структура данных реализована централизованно на одном МОLАР-сервере;

• структура данных распределена на нескольких серверах в со­ответствии с

ROLАР-организацией;

• наиболее оперативные и агрегированные данные хранятся на быстродействующем МОLАР-сервере, а детальные дан­ные в RОLАР-хранилище - на менее производительных сер­верах.

Определение требований к конфигурации и числа клиентских мест выполняется на основе структуры витрин данных, выявлен­ных категорий пользователей и используемых методов интеллек­туального анализа, которые в совокупности определяют требо­вания подключения к ОLАР-серверу. Для каждого пользователя устанавливаются права доступа к ИХ.

Выбор программно-технических средств ИХ (серверов, клиен­тских мест, телекоммуникационного оборудования, инструмен­тальных программных средств) выполняется на основе требова­ний к физической конфигурации системы в части объемов памя­ти, быстродействия, надежности и выбранной клиент-серверной архитектуры ИХ.

Расчет объемов ИХ осуществляется путем суммирования объе­мов хранимых данных на всех МОLАР-серверах с учетом необ­ходимого индексирования (специальных, индексирующих таблиц для доступа к основным данным), а также объемов метаинформации репозитория для МОLАР и RОLАР-организации. Объе­мы ИХ рассчитываются на текущий момент времени и на перс­пективу с учетом внедрения всех компонентов системы.

 

П4. Реализация проекта ИХ

 

Этап реализации проекта ИХ выполняется на основе выбран­ных программных (U3) и технических средств (U4), а также пост­роенных на этапе концептуального моделирования компонентов ИХ (Д4 – Д6) и схемы размещения ИХ (Д7) путем наполнения репозитория (G1), настройки или программирования других ин­струментальных средств (G2), наполнения информационного хра­нилища для МОLАР- структуры (GЗ), создания проектной доку­ментации (Д8).

Наполнение репозитория ИХ осуществляется путем ввода оп­ределений:

· структуры ИХ, источников и витрин данных;

· правил ввода данных в ИХ из одного источника, из несколь­ких источников, при отсутствии данных;

· правил преобразования форматов при поступлении данных из источника и при выводе данных в предоставление пользо­вателю;

· параметров использования методов интеллектуального ана­лиза данных.

Разработка и отладка программных компонентов произво­дятся в основном путем параметрической настройки ППП. В случае функциональной неполноты выбранного инст­рументального программного средства в части процедур началь­ной и периодической загрузки данных, а также процедур анали­за данных выполняется программирование отдельных программ­ных модулей.

Наполнение ИХ предполагает автоматическую загрузку ин­формации из источников данных в ИХ с МОLАР-организацией, которая повторяется с заданной в репозитории периодичностью. Эта операция в последующем предполагает очистку ИХ от не­нужных и устаревших данных; управление данными на различ­ных уровнях хранения; автоматическое обновление агрегирован­ных данных.

 

П5. Внедрение и опытная эксплуатация

 

Заключительный этап создания ИХ предполагает комплек­сное тестирование всех компонентов ИХ (G1 - GЗ) с исправле­нием всех возникающих ошибок (G4 – G6), последующим обу­чением пользователей и постоянным администрированием в со­ответствии с установленными правилами и документацией проекта (Д8).

 


<== предыдущая лекция | следующая лекция ==>
Структура услуг и приложений | 




Дата добавления: 2016-02-04; просмотров: 1462;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.047 сек.