Проектування сховищ даних

 

При створенні сховища даних однією з основних задач є визначення оптимальної структури зберігання даних з точки зору забезпечення прийнятного часу відповіді на аналітичні запити і потрібного об'єму пам'яті.

Всі дані в сховищі даних поділяються на категорії:

· детальні дані;

· агреговані дані;

· метадані.

Детальні дані −дані,які переносяться безпосередньо відоперативних джерел інформації (OLTP). Вони відповідають елементарним подіям, що фіксуються в звичайних БД. Всі дані поділяються на виміри і факти. Вимірами називаються набори даних, які необхідні для опису подій (студенти, факультети і т.ін.). Вимір є аналогом домену в реляційній моделі. Виміри грають роль індексів для ідентифікації конкретних значень в комірках гіперкуба. Фактами називаються дані, які відображають сутність події (результати екзамену, кількість студентів і т.ін.). Непотрібні детальні дані можуть зберігатися в архівах у стислому вигляді.

Агреговані дані −дані,які отримують агрегуваннямдетальних даних по певних вимірах. Частина агрегованих даних безпосередньо зберігається в сховищі даних, а не обчислюється при виконанні запитів.

Метадані −це високорівневі засоби відображенняінформаційної моделі. Метадані містять таку інформацію: опис структури даних сховища, структури даних, які імпортуються з різних джерел, відомості про періодичність імпортування, методах завантаження і узагальнення даних, засобах доступу і правилах представлення інформації, оцінки витрат часу на отримання відповіді на запит. Метадані знаходяться в репозиторії метаданих.

Послідовність проектування сховища даних показана на рис. 12.2.

Розмірності встановлюють контекст для пошуку відповідей на питання, що стосуються фактів в таблиці фактів. Вдало підібрані розмірності дозволяють зробити магазин даних зрозумілим і легким у використанні. Одна і та ж розмірність в різних магазинах даних повинна бути однаковою, або бути підмножиною іншої розмірності. Всі факти повинні бути визначені на відповідному рівні деталізації.

Існують інші підходи до створення сховища даних. Один з найбільш поширених передбачає декомпозицію проекту сховищ даних на магазини даних з подальшою інтеграцією інформації.

 

Визначення ступеня деталізації таблиці фактів

 

Визначення і узгодження розмірностей

 

Визначення фактів

 

Визначення тривалості зберігання даних

 

 

Визначення режимів запитів

 

Рис. 12.2. Послідовність проектування сховища даних

 

При моделюванні сховищ даних використовуються концепції ER-моделювання з деякими обмеженнями. Кожна модель складається з таблиці зі складовим ключем, яка називається таблицею фактів, і набору невеликих таблиць, які називаються таблицями розмірностей. У таблиці фактів розміщуються дані, які найбільш інтенсивно використовуються для аналізу. Запис фактологічної таблиці відповідає комірці гіперкуба. У довідковій таблиці перелічені можливі значення одного з вимірів гіперкуба. Кожен вимір описується своєю власною таблицею.

Кожна таблиця розмірності має простий первинний ключ, який точно відповідає одному з компонентів складового ключа в таблиці фактів. Тобто первинний ключ таблиці фактів складається з декількох зовнішніх ключів. Така централізована структура називається схемою "зірка".

Приклад.Розглянемо організацію сховища даних длявищих навчальних закладів України. За вимірювання візьмемо такі величини:

· параметри, що характеризують діяльність ВНЗ (кількість студентів, конкурс і т.ін.);

· опис ВНЗ (назва, факультети, спеціальності і т.ін.);

· момент часу (рік, квартал, місяць і т.ін.).

Кількість можливих параметрів, ВНЗ, а також моментів часу, що розглядаються, кінцева, тому всі значення можливо представити у вигляді гіперкуба. У цьому гіперкубі кожне значення знаходиться в окремій комірці. На рис. 12.3 наведена спрощена схема структури сховища даних.

 

Рис. 12.3. Приклад бази даних з радіально зв'язаними таблицями

 

Приклади запитів до сховища даних: "Визначити середню успішність студентів в технічних університетах", "Як змінився конкурс студентів на економічні спеціальності за останні п'ять років?"

Якщо БД включає велику кількість вимірів, то можна використовувати схему "сніжинка". В цій схемі атрибути таблиць розмірності можуть бути деталізовані у додаткових довідкових таблицях.








Дата добавления: 2016-03-22; просмотров: 1802;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.005 сек.