Хранение информации. Базы и хранилища данных
Любая предметная область какой-либо деятельности - часть реального мира, подлежащая изучению с целью организации управления процессами и объектами для получения бизнес-результата.
Предметная область может быть разделена (декомпозирована) на фрагменты: например, предприятие - это дирекция, плановые отделы, бухгалтерия, цеха, отделы маркетинга, логистики и продаж, клиенты, поставщики и т. д. Каждый фрагмент предметной области характеризуется множеством объектов и процессов, использующих объекты, а также множеством пользователей, характеризуемых различными взглядами на предметную область и данными, которые описывают указанные составляющие предметной области.
Эти данные СЛАЙД12отражают динамичную внешнюю и внутреннюю среды предприятия, поэтому в специальных разделах информационной системы необходимо создавать динамически обновляемые модели отражения внешнего мира с использованием единого хранилища - базы данных.Рис. 2.2. Общая схема базы данных
База данных, БД (Data Base) - структурированный организованный набор данных, объединенных в соответствии с некоторой выбранной моделью и описывающих характеристики какой-либо предметной области.
Понятие "динамически обновляемая БД" означает, что соответствие базы данных текущему состоянию предметной области обеспечивается не периодически, а в режиме реального времени. При этом одни и те же данные могут быть по-разному представлены в соответствии с потребностями различных групп пользователей.
Система управления базами данных, СУБД (Data Base Management System) - специализированная программа или комплекс программ, предназначенные для манипулирования базой данных. Для создания информационной системы и управления ею СУБД необходима в той же степени, как для разработки программы на алгоритмическом языке необходим транслятор.
Существуют различные структуры БД - иерархическая, фреймовая, дескрипторная, объектно-характеристическая и др.
На уровне физической модели электронная БД представляет собой файл или набор данных в специализированном формате конкретной СУБД. Также в СУБД в понятие физической модели включают специализированные виртуальные понятия, существующие в ее рамках, - "таблица", "табличное пространство", "сегмент", "куб", "кластер" и т. д.
В последние годы при проектировании информационно-поисковых, справочных и иных систем наибольшее распространение получили реляционные базы данных. Реляционный подход основан на представлении информации в виде двумерных таблиц, построенных по следующим правилам:
• таблица содержит данные об однородных объектах учета (автомототранспорт, оружие, кадры и др.);
• данные в пределах одного столбца однотипны, т. е. относятся к одному, общему реквизиту ;
• каждая строка таблицы уникальна, поскольку отражает один конкретный объект учета;
• элемент таблицы (клетка) есть неделимое данное (число, слово, текст, рисунок и пр.).
Название "реляционная" БД с такой табличной структурой получила из-за методов манипуляций над табличными данными, которые определяются правилами реляционной алгебры - специальной математической теории.
Реляционная база данных - база данных, основанная на реляционной модели. Слово "реляционный" происходит от английского "relation" (отношение).
Теория реляционных баз данных была разработана доктором Эдгаром Коддомиз компании IBM в 1970 году. В реляционных базах данных все данные представлены в виде простых таблиц, разбитых на строки и столбцы, на пересечении которых расположены данные. Запросы к таким таблицам возвращают таблицы, которые сами могут становиться предметом дальнейших запросов. Каждая база данных может включать несколько таблиц. Кратко особенности реляционной базы данных можно сформулировать следующим образом:
• данные хранятся в таблицах, состоящих из столбцов ("полей") и строк ("записей");
• на пересечении каждого столбца и строчки стоит в точности одно значение;
• у каждого столбца есть свое имя, которое служит его названием, и все значения в одном столбце имеют один тип;
• запросы к базе данных возвращают результат в виде таблиц, которые тоже могут выступать как объект запросов;
• строки в реляционной базе данных неупорядочены, упорядочивание производится в момент формирования ответа на запрос.
Общепринятым стандартом языка работы с реляционными базами данных в настоящее время является язык структурированных запросов (Structured Query Language - SQL). Это универсальный компьютерный язык, применяемый для создания, модификации и управления данными в реляционных базах данных. Вопреки существующим заблуждениям, SQL является информационно-логическим языком, а не языком программирования.
SQL основывается на реляционной алгебре. Язык SQL делится на три части:
• операторы определения данных;
• операторы манипуляции данными (Insert, Select, Update, Delete);
• операторы определения доступа к данным.
Основные функции системы управления базами данных:
• управление данными во внешней памяти (на различных носителях);
• управление данными в оперативной памяти;
• журналирование изменений и восстановление базы данных после сбоев;
• поддержка языков БД (язык определения данных, язык манипулирования данными, язык определения доступа к данным). СЛАЙД13
•
Рис. 2.3. Основные компоненты СУБД
По архитектуре организации хранения данных:
• локальные СУБД (все части локальной СУБД размещаются на одном компьютере);
• распределенные СУБД (части СУБД могут размещаться на двух и более компьютерах).
По технологии обработки базы данных делятся на централизованные и распределенные.
· централизованная база данных хранится в памяти одной машины.
· распределенная база данных состоит из нескольких частей, хранимых на нескольких машинах вычислительной сети. Работа с такой базой осуществляется с помощью системы управления распределенной базой данных - СУРБД.
Централизованные базы данных по способу доступа делятся на:
• файл-серверные;
• клиент-серверные;
• трехзвенные;
Файл-серверные СУБД. Архитектура "файл-сервер" не имеет сетевого разделения компонентов диалога и использует компьютер для функции отображения, что облегчает построение графического интерфейса. "Файл-сервер" только хранит данные в виде файлов и отображает свои диски на локальные компьютеры. Минус - высокая загрузка сети. На данный момент файл-серверные СУБД считаются устаревшими. Примеры: Microsoft Access, MySQL (до версии 5.0).
Клиент-серверные СУБД. Такие СУБД состоят из клиентской части (которая входит в состав прикладной программы) и сервера. Клиент-серверные СУБД, в отличие от файл-серверных, обеспечивают разграничение доступа между пользователями и меньше загружают сеть и клиентские машины. Сервер является внешней по отношению к клиенту программой, и по мере надобности его можно заменить другим. Недостаток клиент-серверных СУБД - в больших вычислительных ресурсах, потребляемых сервером. Примеры: Firebird, Interbase, MS SQL Server, Oracle, DB2, PostgreSQL, MySQL (старше версии 5.0).
Существенным недостатком клиент-серверной архитектуры является необходимость установления прямого соединения между клиентским компьютером и базой данных. При трехзвенной архитектуре пользовательское приложение (клиент) соединяется со специально выделенным сервером приложений, и только он уже соединяется с базой данных. Кроме повышения уровня безопасности трехзвенная архитектура позволяет более гибко модернизировать приложения.
Как правило, в массовой клиентской части оставляют только минимальный набор функций по доступу и отображению информации, а основную бизнес-логику реализуют в программах, запускаемых на серверах приложений. При этом модернизация обычно затрагивает только сервер приложений, а на массовых клиентских местах переустанавливать ПО не приходится.
К концу 1980-х годов, когда была в полной мере осознана необходимость интеграции корпоративной информации и надлежащего управления этой информацией, появились технические возможности для создания соответствующих систем, которые первоначально были названы "хранилищами информации" (Information Warehouse - IW). И лишь в 1990-е годы, с выходом книги Уильяма (Билла) Инмона, хранилища получили свое нынешнее наименование "хранилища данных".
Билл Инмон определил хранилища данных как "предметно-ориентированные, интегрированные, неизменные, поддерживающие хронологию наборы данных, организованные для целей поддержки управления, призванные выступать в роли единого и единственного источника истины, обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений".
В основе концепции хранилищ данных лежат следующие основополагающие идеи:
• интеграция ранее разъединенных детализированных данных (исторические архивы, данные из традиционных систем обработки документов, разрозненных баз данных, данные из внешних источников) в едином хранилище данных;
• тематическое и временное структурирование, согласование и агрегирование;
• разделение наборов данных, используемых для операционной (производственной) обработки, и наборов данных, используемых для решения задач анализа.
Данные, помещаемые в хранилище, должны отвечать определенным требованиям - предметной ориентированности, интегрированности, поддержки хронологии и неизменяемости
Дата добавления: 2015-04-21; просмотров: 1113;