Проектування сховищ даних
При створенні сховища даних однією з основних задач є визначення оптимальної структури зберігання даних з точки зору забезпечення прийнятного часу відповіді на аналітичні запити і потрібного об'єму пам'яті.
Всі дані в сховищі даних поділяються на категорії:
· детальні дані;
· агреговані дані;
· метадані.
Детальні дані −дані,які переносяться безпосередньо відоперативних джерел інформації (OLTP). Вони відповідають елементарним подіям, що фіксуються в звичайних БД. Всі дані поділяються на виміри і факти. Вимірами називаються набори даних, які необхідні для опису подій (студенти, факультети і т.ін.). Вимір є аналогом домену в реляційній моделі. Виміри грають роль індексів для ідентифікації конкретних значень в комірках гіперкуба. Фактами називаються дані, які відображають сутність події (результати екзамену, кількість студентів і т.ін.). Непотрібні детальні дані можуть зберігатися в архівах у стислому вигляді.
Агреговані дані −дані,які отримують агрегуваннямдетальних даних по певних вимірах. Частина агрегованих даних безпосередньо зберігається в сховищі даних, а не обчислюється при виконанні запитів.
Метадані −це високорівневі засоби відображенняінформаційної моделі. Метадані містять таку інформацію: опис структури даних сховища, структури даних, які імпортуються з різних джерел, відомості про періодичність імпортування, методах завантаження і узагальнення даних, засобах доступу і правилах представлення інформації, оцінки витрат часу на отримання відповіді на запит. Метадані знаходяться в репозиторії метаданих.
Послідовність проектування сховища даних показана на рис. 12.2.
Розмірності встановлюють контекст для пошуку відповідей на питання, що стосуються фактів в таблиці фактів. Вдало підібрані розмірності дозволяють зробити магазин даних зрозумілим і легким у використанні. Одна і та ж розмірність в різних магазинах даних повинна бути однаковою, або бути підмножиною іншої розмірності. Всі факти повинні бути визначені на відповідному рівні деталізації.
Існують інші підходи до створення сховища даних. Один з найбільш поширених передбачає декомпозицію проекту сховищ даних на магазини даних з подальшою інтеграцією інформації.
Визначення ступеня деталізації таблиці фактів
Визначення і узгодження розмірностей
Визначення фактів
Визначення тривалості зберігання даних
Визначення режимів запитів
Рис. 12.2. Послідовність проектування сховища даних
При моделюванні сховищ даних використовуються концепції ER-моделювання з деякими обмеженнями. Кожна модель складається з таблиці зі складовим ключем, яка називається таблицею фактів, і набору невеликих таблиць, які називаються таблицями розмірностей. У таблиці фактів розміщуються дані, які найбільш інтенсивно використовуються для аналізу. Запис фактологічної таблиці відповідає комірці гіперкуба. У довідковій таблиці перелічені можливі значення одного з вимірів гіперкуба. Кожен вимір описується своєю власною таблицею.
Кожна таблиця розмірності має простий первинний ключ, який точно відповідає одному з компонентів складового ключа в таблиці фактів. Тобто первинний ключ таблиці фактів складається з декількох зовнішніх ключів. Така централізована структура називається схемою "зірка".
Приклад.Розглянемо організацію сховища даних длявищих навчальних закладів України. За вимірювання візьмемо такі величини:
· параметри, що характеризують діяльність ВНЗ (кількість студентів, конкурс і т.ін.);
· опис ВНЗ (назва, факультети, спеціальності і т.ін.);
· момент часу (рік, квартал, місяць і т.ін.).
Кількість можливих параметрів, ВНЗ, а також моментів часу, що розглядаються, кінцева, тому всі значення можливо представити у вигляді гіперкуба. У цьому гіперкубі кожне значення знаходиться в окремій комірці. На рис. 12.3 наведена спрощена схема структури сховища даних.
Рис. 12.3. Приклад бази даних з радіально зв'язаними таблицями
Приклади запитів до сховища даних: "Визначити середню успішність студентів в технічних університетах", "Як змінився конкурс студентів на економічні спеціальності за останні п'ять років?"
Якщо БД включає велику кількість вимірів, то можна використовувати схему "сніжинка". В цій схемі атрибути таблиць розмірності можуть бути деталізовані у додаткових довідкових таблицях.
Дата добавления: 2016-03-22; просмотров: 1810;