Общие понятия динамического программирования

Динамическое программирование – метод оптимизации, приспособленный к операциям, в которых процесс принятия решений может быть разбит на этапы.

Приведем общую постановку задачи ДП. Рассматривается управляемый процесс, например, экономический процесс распределения средств между предприятиями, использования ресурсов в течение ряда лет, замены оборудования, пополнения запасов и т. п. В результате управления система (объект управления) S переводится из начального состояния s0 в состояние . Предположим, что управление можно разбить на n шагов, т.е. решение принимается последовательно на каждом шаге, а управление, переводящее систему S из начального состояния в конечное, представляет собой совокупность n пошаговых управлений.

Обозначим через Хk, управление на k-м шаге (k=1, 2, ..., n). Переменные Хk, удовлетворяют некоторым ограничениям и в этом смысле называются допустимыми (Хk может быть числом, точкой в n-мерном пространстве, качественным признаком).

Пусть Х(Х1, Х2, ..., Хn,) — управление, переводящее систему S из состояния s0 в состояние . Обозначим через sk состояние системы после k-го шага управления. Получаем последовательность состояний s0, s1, ..., sk-1,…, sn= , которую изобразим кружками (рис. 7.1).

Рис. 7.1

Показатель эффективности рассматриваемой управляемой операции — целевая функция — зависит от начального состояния и управления:

Z=F(s0,X) (7.1)

Сделаем несколько предположений.

1. Состояние sk системы в конце k-го шага зависит только от предшествующего состояния sk-1 и управления на k-м шаге Хk, (и не зависит от предшествующих состояний и управлений). Это требование называется “отсутствием последействия”. Сформулированное положение записывается в виде уравнений

которые называются уравнениями состояний.

2. Целевая функция (7.1) является аддитивной от показателя эффективности каждого шага. Обозначим показатель эффективности k-го шага через Тогда

(7.2)

Задача пошаговой оптимизации (задача ДП) формулируется так: определить такое допустимое управление Х, переводящее систему S из состояния в s0 в состояние , при котором целевая функция (7.2) принимает наибольшее (наименьшее) значение.

Выделим особенности модели ДП:

1. Задача оптимизации интерпретируется как n-шаговый процесс управления.

2. Целевая функция равна сумме целевых функций каждого шага.

3. Выбор управления на k-м шаге зависит только от состояния системы к этому шагу, не влияет на предшествующие шаги (нет обратной связи).

4. Состояние sk после k-го шага управления зависит только от предшествующего состояния sk-1 и управления Хk (отсутствие последействия).

5. На каждом шаге управление Хk, зависит от конечного числа управляющих переменных, а состояние sk — от конечного числа параметров.

 

 








Дата добавления: 2016-04-19; просмотров: 585;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2025 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.003 сек.