Смекни!
smekni.com

Дискретная задача оптимального управления (стр. 1 из 6)

Содержание:

Введение……………………………………

1. Введение

Дискретные динамические модели управляемых систем — это до­вольно важный в теоретическом и практическом отношении класс ма­тематических моделей, позволяющий охватить очень широкий круг реальных объектов и соответствующих им задач управления. Они возникают как вполне естественные при моделировании дискретных процессов, таких как задачи распределения ресурсов, обработка и пе­редача информации цифровыми электронными устройствами, либо опосредованно — при дискретизации непрерывных моделей для прак­тических расчётов или с целью учёта неоднородности их поведения, либо чисто искусственным путём при организации различных итера­ционных вычислительных процедур.

К настоящему времени разработаны многочисленные точные и приближённые методы решения задач оптимального управления. Од­нако подавляющее их большинство относится к системам с непрерыв­ным временем. Для систем с дискретным временем, в особенности нелинейных, их арсенал оказывается значительно беднее. Основная причина — отсутствие в общем случае дискретного аналога принци­па максимума Понтрягина для непрерывных систем, вокруг которого

долгое время группировались в основном теоретические работы в об­ласти оптимального управления, основанные на методе вариаций и необходимых условиях оптимальности. Об этом свидетельствуют из­вестные работы по дискретным системам [1-3] и др.

Значительно более продвинутыми оказываются результаты, осно­ванные на принципе оптимальности Беллмана и общих достаточ­ных условиях оптимальности Кротова [4]. К ним относятся усло­вия локальной оптимальности и итерационные методы улучшения В. И. Гурмана [5]. В то же время разработано мало эффективных методов синтеза оптимального управления для нелинейных дискрет­ных систем.

Данная работа посвящена приближённым методам синтеза за­конов оптимального управления на основе принципа оптимальности Кротова и глобальных оценок, которые не требуют априори хороших аналитических свойств исследуемых моделей.

Конкретно речь идет о следующих новых методах приближённо­го синтеза оптимального управления:

• метода полиномиальной аппроксимации решения уравнения Беллмана;

• метода траекторного восстановления функции цены.

В первом разделе описывается дискретная модель управляемой системы, рассматриваются ее методические преобразования, дается постановка общей задачи оптимального управления, в том числе, в форме синтеза.

Во втором разделе дается метод приближенного синтеза опти­мального управления, как одного из способов задания функции Кро- това на основе аппроксимации решения уравнения Беллмана степен­ным полиномом, в том числе точечную интерполяцию и аппроксима­цию по методу наименьших квадратов.

В третьем разделе предлагается метод приближенного синтеза, основанный на восстановлении так называемой функции цены.

Обсуждаются их приложения к практическим задачам, в част­ности к задаче оптимизации пространственного маневра вертолета и задаче об оптимальной стратегии устойчивого развития.

2. Постановка задачи

Рассматривается дискретная задача оптимального управления [4] о минимуме функционала

N-1

I(x(i),u(i)) = F(x(N)) + ^ /0(i,x(i),u(i))

i=0

на множестве D, определенном следующими условиями:

(1) x(i + 1) = / (i,x(i),u(i)), i = 0,1 ,...,N — 1,

x(i) e Vx(i) С Rn, u(i) e Vu(i,x(i)) С Rr,

x(0) e Vx(0), x(N) e Vx(N).

В соответствии с теорией Кротова, с помощью произвольной функ­ции p(i,x), строятся следующие конструкции:

R(i, x, u) = p(i + 1, /(i, x, u)) — p(i, x) — /о(i, x, u), G(x(0),x(N)) = F(x(N)) + p(N, x(N)) — p(0, x(0)),

P(i,x)= sup R(i,x,u), p(i) = sup P(i,x),

uЈV„(i,x(i)) x(i)eVx(i)

m = inf G(x(0),x(N)) : x(0) e V(x)(0),x(N) e V(x)(N).

Задача сводится к поиску такой последовательности пар

{(x(i),u(i))s}c D

и такой функции p (разрешающей, или функции Кротова), что вы­полняются достаточные условия оптимальности:

R(i,xs(i),us(i)) ^ i), G(xs(0),xs(N)) ^ m.

3. Аппроксимации степенным полиномом

Здесь рассматривается метод приближенного синтеза оптималь­ного управления, как одного из способов задания функции Кротова на основе аппроксимации решения уравнения Беллмана интерполя­ционным полиномом.

Предполагается, что Vx(0) = {x(0)} , Vx(i) = Rn, i = 0,1,... ,N. В данном случае функция G(x(0),x(N)) зависит только от x(N), так как левый конец траектории закреплен.

Функция p(i,x) выбирается так, чтобы P(i,x) не зависела от x, а функция G( x(N)) не зависела от x(N) , конкретно посредством из­вестных соотношений типа Беллмана относительно p(i, x):

P (i, x(i)) =0,i = 0,1,...,N — 1, G(x(N)) = 0.

В общем случае их точное решение найти не удается, и приходится ограничиваться приближенными вычислениями.

Предлагаемый метод основан на аппроксимации разрешающей функции p(i,x) некоторым многомерным интерполяционным поли­номом

p(i, x) = J2 ^a(i)ga(x),

a

где {ga(x)} — некоторый набор заданных базисных функций, {^a(i)} --соответствующий набор коэффициентов, подлежащих определению из условий интерполяции равенств (1):

[фa(i)]=[ga(xp W)]-^

SUPueU (i,x(i))(Ea фа(i + 1)ga(/(i,x(i),u)) — x(i), u))в

a(N)] = [ga(xe (N ))]-1[F (xp (N))], а, в = 1, 2,...,M,

где в — номер узловой точки, [(-)a] ,[(^)в],[(^)ae] —матрицы размером (слева направо) M х 1, M х 1, M х M.

Однако в многомерных задачах при интерполяции необходимо согласование формы интерполяционного полинома и сетки узлов ин­терполяции, обеспечивающее обратимость матрицы [ga(xp(i))]. Вы­бор этих двух элементов, в конечном счете, и определяет метод при­ближенного решения поставленной задачи синтеза.

В качестве интерполяционного полинома использована следую­щая известная в теории интерполяции конструкция:

(5)

p(i,x(i))= Ј ji = 1mi (xi(i)j X

(j (x2 (i)j (••• Ј jn=1mn j (i)(xn(ij)),

здесь 1j1,j2,...,jn(i) —неизвестные коэффициенты интерполяционного полинома, которые подлежат вычислению и которые, в конечном сче­те, определяют приближенно-оптимальный синтез управления. Чис­ло этих коэффициентов совпадает на регулярной решетке с числом узловых точек и равно произведению количества узловых точек по каждой из фазовых координат M = mi m-2 mn.

При решении практических задач, как правило, диапазоны изме­нения фазовых координат либо заданы, исходя из физического смыс­ла задачи, либо могут быть определены с помощью методов оценок множеств достижимости. Поэтому узловые линии (дискретные) для рассматриваемого интерполяционного полинома могут быть постро­ены следующим образом. В некоторый момент времени i = i* диапа­зоны изменения фазовых координат разбиваются точками на mi — 1 отрезков по оси xi, на (m-2 — 1) отрезков по оси x2, и т.д. Через эти точки на каждой оси проводятся (n 1)-мерные гиперплоскости, ор­тогональные этой оси. Взаимное пересечение этих гиперплоскостей определяет M = mi m-2 mn узловых точек. Через них про­водится регулярное семейство узловых линий xp(г),в = 1, 2,..., M выбранного вида, например, семейство прямых: xp(i) = const, линей­ных функций: xp(i) = Kii + Ко, парабол: xp(i) = K212 + Kii + Ко, и т. д. В этом случае коэффициенты 1&j1,j2,...j(i) интерполяционно­го полинома (5) будут либо константами, либо простыми функциями времени.

При постановке рассматриваемой задачи учитывалось только од­но фазовое ограничение -- ограничение на левый конец траектории, которое в данном случае представляет собой заданную точку xo(0). Другие фазовые ограничения (или их совокупности) могут быть учте­ны с помощью известного метода штрафов.

Близость полученного нами приближенного синтеза оптималь­ного управления u(i,x(i)) к строгому оптимуму можно определить с помощью следующей верхней оценки, доставляемой достаточными

N-i

Ј

i=0

+

Найденное управление тем ближе к оптимальному, чем меньше эта оценка. Возможность вычисления оценки—это важное преимущество перед «чистым» методом Беллмана. Она позволяет организовать ре­гулярную процедуру уточнения приближённого решения за счет уве­личения числа узлов интерполяции и их расположения в фазовом пространстве, а также дает критерий ее остановки.

Алгоритм описанного метода состоит из следующих этапов:

• в рассматриваемой области задаются узловые линии, и со­ответствующая конструкция полинома (5);

• в моменты времени i решается система уравнений (4) с на­чальными условиями. В результате определяются коэффи­циенты интерполяционного полинома и приближенный син­тез оптимального управления;

• вычисляется оценка точности приближенного синтеза опти­мального управления (6). Если эта оценка неудовлетвори­тельна, то следует повторить шаги 1) и 2) с увеличением числа узловых линий;

• для найденного синтеза управления и заданных начальных условий решается система