Смекни!
smekni.com

Постановка задачі оптимального стохастичного керування (стр. 3 из 3)

Розв’язання будь-якої задачі оптимального стохастичного керування здійснюється за шість етапів:

1. Змістовна постановка задачі.

2. Побудова моделі об'єкта керування, що включає вибір векторів станів і керувань, просторів станів і керувань, вектора і простору випадкових збурень; побудову функції витрат, що визначається метою керування.

3. Формальна постановка задачі.

4. Вибір і обґрунтування методу розв’язання задачі.

Обчислення оптимальної стратегії керування одним з методів.

6. Аналіз отриманих результатів.

5 Алгоритм розв’язання задачі оптимального стохастичного керування

Процедура пошуку оптимальних позиційних стратегій є досить складною задачею. Одним з головних питань, вирішення якого дозволяє у значній мірі полегшити цю процедуру, є наступне: чи можна обмежитися пошуком оптимальних стратегій у класі стаціонарних або марковских стратегій? Якщо це можливо, то структура керування значно спрощується, і, крім того, зменшується об'єм оброблюваної інформації: не потрібно запам'ятовувати керування

, …,
, попередні стани
, …,
і діставати залежність поточного керування
від усіх цих величин. У цьому випадку для розв’язання дискретних задач оптимального керування зі скінченним горизонтом найчастіше використовується алгоритм, заснований на методі динамічного програмування, запропонованого Беллманом. Суть методу полягає в наступному:

, (9)

(10)

де математичне сподівання береться за мірою

. Формули (9) – (10) є стохастичним аналогом детермінованого алгоритму методу динамічного програмування.

Величина

– це оптимальні витрати, пов'язані з функціонуванням системи, за останні
кроків, за умови, що перед першим із цих кроків система перебувала в стані
. Стратегія
, кожний елемент якої
доставляє оптимальне значення (10) для всіх
,
, є оптимальною стратегією для кожного
. Оптимальна функція витрат
даної задачі визначається на
-му кроці і дорівнює
.

Для розв’язання задач оптимального стохастичного керування з нескінченним горизонтом, як правило, застосовуються чисельні методи, які дозволяють на кожній ітерації одержувати наближення до оптимального керування і оптимальної функції витрат. У цьому випадку можна показати, що оптимальна функція витрат

задовольняє рівнянню Беллмана

.

6 Формулювання задачі оптимального керування в термінах відображень

Сформулюємо задачу оптимального стохастичного керування (4) – (5), а також алгоритм динамічного програмування за допомогою відображення

, яке задане формулою:

.

Розглянемо оператори

і
, які відображують множину функцій, що приймають дійсні значення на
, в себе:

,

,
.

За таких позначень задачу оптимального стохастичного керування (4) – (5) можна записати у вигляді:

,

,

де

,
, а
– суперпозиція операторів
(нагадаємо, що суперпозицією відображень
і
називається відображення
таке, що
,
).

Алгоритм динамічного програмування (9) – (10) у термінах відображень можна записати у такий спосіб:

,
,

звідки випливає, що

, де
-кратний добуток оператора
на себе.

Задачу з нескінченним горизонтом (6)-(7) у термінах відображень
можна сформулювати в такий спосіб.


,

.

Функціональне рівняння Беллмана тепер буде еквівалентно рівності

,
.