Хранилища данных
По определению, сформулированному автором термина "хранилище данных" (Data Warehouse) Биллом Инмоном, хранилище данных – это предметно-ориентированное, привязанное ко времени и неизменяемое собрание данных для поддержки процесса принятия управляющих решений.
Типичное хранилище данных, как правило, отличается от обычной реляционной базы данных. Во-первых, обычные БД предназначены для того, чтобы помочь пользователям выполнять повседневную работу, в то время как хранилища данных предназначены для принятия решений. Например, продажа товара и выписка счета производятся с использованием базы данных, предназначенной для обработки транзакций (транзакция – это последовательность операций над БД, рассматриваемая СУБД как единое целое), а анализ динамики продаж за несколько лет, позволяющий спланировать работу с поставщиками, осуществляется с помощью хранилища данных. Во-вторых, обычные базы данных подвержены постоянным изменениям в процессе работы пользователей, а хранилище данных относительно стабильно: данные в нем обычно обновляются согласно расписанию (например, еженедельно, ежедневно или ежечасно в зависимости от потребностей). В идеале процесс пополнения представляет собой просто добавление новых данных за определенный период времени без изменения прежней информации, уже находящейся в хранилище.
Обычные БД чаще всего и являются источником данных, попадающих в хранилище. Кроме того, хранилище может пополняться за счет внешних источников, например, статистических отчетов. Хранилища содержат заведомо избыточную информацию, однако, анализировать данные оперативных систем напрямую невозможно или очень затруднительно, а сложные аналитические запросы к оперативной информации тормозят текущую работу предприятия. Основными требованиями к хранилищам данных являются:
- поддержка высокой скорости получения данных из хранилища;
- поддержка внутренней непротиворечивости данных;
- возможность получения и сравнения так называемых срезов данных;
- наличие удобных утилит просмотра данных в хранилище;
- полнота и достоверность хранимых данных;
- поддержка качественного процесса пополнения данных.
Удовлетворять всем перечисленным требованиям в рамках одного и того же программного (или программно-аппаратного) продукта зачастую не удается. Поэтому для реализации хранилищ данных обычно применяются несколько программных продуктов, одни их которых представляют собой собственно средства хранения данных, другие – средства их извлечения и просмотра, третьи – средства их пополнения и т.д.
Системы поддержки принятия решений, как правило, обладают средствами предоставления пользователю агрегатных данных для различных выборок из исходного набора в удобном для восприятия и анализа виде. Для такого представления используется многомерная модель данных (см. п. 2.4.3) в виде гиперкуба. Оси гиперкуба содержат параметры, а ячейки включают зависящие от них агрегатные данные. Вдоль каждой оси данные могут быть организованы в виде иерархии, представляющей различные уровни их детализации. Благодаря такой модели данных, пользователи могут формулировать сложные запросы, генерировать отчеты, получать подмножества данных (см. рис. 2.15).
Технология комплексного многомерного анализа данных получила название OLAP (On-Line Analytical Processing). OLAP – это ключевой компонент организации хранилищ данных. Концепция OLAP была описана в 1993 году Эдгаром Коддом, а в 1995 году на основе требований, изложенных Коддом, был сформулирован так называемый тест FASMI (Fast Analysis of Shared Multidimensional Information – быстрый анализ разделяемой многомерной информации), основными требованиями которого являются:
- предоставление пользователю результатов анализа за приемлемое время (обычно не более 5 с.), пусть даже ценой менее детального анализа;
- возможность осуществления логического и статистического анализа, характерного для данного приложения, и его сохранения в доступном для пользователя виде;
- многомерное представление данных (концептуальное требование OLAP);
- возможность обращаться к любой необходимой информации независимо от ее объема и места хранения.
Будучи средством поддержки принятия решений OLAP работает не с оперативными базами данных, а с ретроспективными архивами, хранящими данные за значительный период времени. Это позволяет вычислить промежуточные данные, которые ускоряют анализ гигантских объемов информации [26].
Рекомендуемая литература
1. Бекаревич Ю.Б., Пушкина Н.В. Самоучитель Microsoft Access 2003. - СПб.: БХВ-Петербург, 2006. – 752 с.
2. Бойко В.В., Савинков В.М. Проектирование баз данных информационных систем. – М.: Финансы и статистика, 1989. – 351 с.
3. Буч Г. и др. Язык UML. Руководство пользователя. / Г. Буч, Дж. Рамбо, А. Джекобсон / Пер. с англ.- М.: ДМК, 2000. – 432 с.
4. Вендров А.М. Проектирование программного обеспечения экономических информационных систем. – М.: Финансы и статистика, 2000. – 352 с.
5. Вирт Н. Алгоритмы и структуры данных / Пер. с англ. – М.: Мир, 1989.
6. Гайдамакин Н.А. Автоматизированные информационные системы, базы и банки данных. Вводный курс: Учеб.пособие. – М.: Гелиос АРВ, 2002. – 368 с.
7. Гарнаев А.Ю. Самоучитель VBA. – 2-е изд. – СПб.: БХВ-Петербург, 2004. – 560с.
8. Грей Дж. Управление данными: прошлое, настоящее и будущее / Пер. с англ. // СУБД. – 1998. - № 3. – С.71-80.
9. Дейт К. Введение в системы баз данных /Пер. с англ.–6-е изд.–СПб.:Вильямс, 1999.
10. Зиндер Е.З. Администратор базы данных – кто он? // СУБД. – 1995. – №2.
11. Зиндер Е.З. Проектирование баз данных: новые требования, новые подходы // СУБД. – 1996. - №3 – С.10-22.
12. Информатика: Учебник для вузов - 3-е изд., перераб. / Под ред. Н.В. Макаровой. – М.: Финансы и статистика, 2006. – 768 с.
13. Когаловский М.Р. Энциклопедия технологий баз данных. – М: Финансы и статистика, 2002. – 800 с.
14. Кузнецов С.Д. Введение в СУБД // СУБД. – 1995. - №№1-4, 1996. - №№1-4, 1997. - №№1,2.
15. Ладыженский Г.М. Системы управления базами данных – коротко о главном // СУБД. – 1995. - №№1-4.
16. Мейер Д. Теория реляционных баз банных. Пер. с англ. / Под ред. М.Ш. Цаленко. – М.: Мир, 1987. – 608 с.
17. Михеев Р.Н. VBA и программирование в MS Office для пользователей. - СПб.: БХВ-Петербург, 2006. – 384 с.
18. Овчаров Л.А., Селетков С.Н. Автоматизированные банки данных. – М.: Финансы и статистика, 1982.
19. Послед Б.С. Access 2000. Базы данных и приложения. Лекции и упражнения. – К.: Издательство «ДиаСофт», 2000. – 512 с.
20. Рудикова Л.В. Базы данных. Разработка приложений. – СПб.: БХВ-Петербург, 2006. – 496с.
21. Саймон А.Р. Стратегические технологии баз данных: менеджмент на 2000 год. Пер. с англ. / Под ред. М.Р. Когаловского. - М.: Финансы и статистика, 1999. – 479 с.
22. Тиори Т., Фрай Дж. Проектирование структур баз данных В 2-х кн. Пер. с англ. / Под ред. В.И. Скворцова. – М.: Мир, 1985.
23. Ульман Дж. Основы систем баз данных. Пер. с англ. / Под ред. М.Р. Когаловского. - М.: Финансы и статистика, 1983. – 334 с.
24. Хомоненко А.Д., Цыганков В.М., Мальцев М.Г. Базы данных: Учебник для вузов/ Под ред. А.Д. Хомоненко – 5-е изд., доп. – М.: Бином-Пресс; СПб.: КОРОНА принт, 2006. – 736 с.
25. Чен П. Модель «Сущность – связь» - шаг к единому представлению данных / Пер. с англ. // СУБД. – 1995. - №3. С. 137-157.
26. Юрьев В.Н., Волкова В.Н. Информационные системы в экономике: Учебник для вузов. – СПб.: Изд-во СПбГПУ, 2006.
Сайты:
- http://www.rsdn.ru
- http://rdbms.narod.ru/faq/index.html
- http://www.sql.ru
Вопросы к экзамену по курсу «Информатика и программирование» для групп 2072/1,2,3
Дата добавления: 2015-08-08; просмотров: 914;