Математическая энциклопедия - оптимальное управление позиционное
Связанные словари
Оптимальное управление позиционное
решение задачи оптимального управления математической теории, состоящей в синтезе оптимального управления в виде стратегии управления по принципу обратной связи, как функции текущего состояния (позиции) процесса (см. [1] [3]). Последнее определяется, помимо текущего момента t, также доступными значениями текущих параметров. Таким образом, введение позиционной стратегии позволяет формировать реализаций) управления Uапостериорно, корректируя его на основе дополнительной информации, получаемой по ходу процесса.
Простейшая задача синтеза, напр. для системы
с ограничениями
и. заданным "терминальным" показателем
предполагает поиск решения и 0, минимизирующего функционал среди функций вида u(t, х).для произвольной исходной позиции . Естественный путь состоит в решении для каждой позиции соответствующей задачи о построении оптимального управления программного
на минимум того же функционала и при тех же самых ограничениях. Далее полагается, что
и если функция u0(t, x).корректно определена, а уравнение
имеет единственное решение, то задача синтеза решена, причем оптимальные значения показателя I, найденные в классах программных и позиционных управлений, совпадают (в общем случае выделяют условия, обеспечивающие существование в определенном содержательном смысле решений уравнения (3), и условия, гарантирующие оптимальность всех траекторий этого уравнения).
Синтезированная функция u0(t, x), являющаяся О. у. п., позволяет построить оптимальное в смысле минимума функционала Iрешение задачи оптимального управления для любой исходной позиции , в отличие от программного оптимального управления, зависящего, вообще говоря, от фиксированного начального состояния {t0, x0} процесса. Решение задачи оптимального управления в форме синтеза оптимального управления находит большие приложения, в частности в связи с тем, что реальные процедуры построения управления осуществляются, как правило, на фоне информационных помех или возмущений процедуры счета. В указанных ситуациях позиционное управление предпочтительней программного.
Нахождение u0(t, x).сразу в виде функции текущего состояния связано с использованием метода динамического программирования (см. [2]). Вводимая в рассмотрение функция действия (функция Б е л л м а н a) V(t, х), имеющая смысл минимума (максимума) оптимизируемой величины (напр., функционала
(4)
для системы (1) при x(t)=x:, , должна удовлетворять дифференциальному уравнению Беллмана с частными производными и с краевыми условиями, зависящими от цели управления и показателя J. Для системы (1), (2), (4) это уравнение имеет вид
(5) где
(6)
функция Гамильтона. Оно связано с уравнениями, фигурирующими в условиях Понтрягина принципа максимума, подобно тому, как уравнение Гамильтона Якоби для функции действия связано в аналитич. механике с обыкновенным дифференциальным уравнением Гамильтона (см. Вариационные принципы классической механики).
Вывод уравнения (5) для задачи синтеза опирается на принцип оптимальности, утверждающий, что отрезок оптимальной траектории есть снова оптимальная траектория (см. [2]). Правомерность такого подхода зависит от корректного определения информационных свойств процесса и, в частности, понятия позиции (текущего состояния, см. [5]).
В задаче быстродействия о минимальном времени Т(х).попадания траектории автономной системы (1) из положения хна множество Мфункцию V(t, x)=V(x).можно рассматривать как своего рода потенциал V(x)=T(x).относительно множества М. Выбор оптимального управления u0(t, x).из условий (5), (6), приобретающих здесь вид
тогда означает, что u0(t, х) = и 0 (х).осуществляет спуск оптимальной траектории х 0(t).относительно поверхностей уровня функции V(х).наискорейшим из способов, допускаемых условием
Применение метода динамич. программирования (как достаточного условия оптимальности) будет обосновано, если функция V(t, x).всюду удовлетворяет определенным условиям гладкости (напр., в задаче (3)-(6) функция V(t, х).должна быть непрерывно дифференцируемой) или если условия гладкости выполняются всюду, за исключением нек-рого "особого" множества N. При выполнении нек-рых специальных "условий регулярного синтеза" метод динамич. программирования оказывается эквивалентным принципу Понтрягина, к-рый тогда выступает как необходимое и достаточное условие оптимальности (см. [8]). Трудности, связанные с априорной проверкой применимости метода динамич. программирования и с необходимостью решать дифференциальное уравнение Беллмана с частными производными, усложняют использование этого метода. Метод динамического программирования нашел распространение в задачах синтеза оптимального управления для дискретных (многошаговых) систем, где соответствующее уравнение Беллмана конечно-разностное (см. [2], [9]).
В задачах оптимального управления с дифференциальными связями метод динамич. программирования дает эффективное решение задачи синтеза в замкнутой форме для класса задач, охватываемых линейными системами с квадратичным показателем (4) (функции f0, j суть положительно определенные квадратичные формы соответственно по х, и и по х). Эта задача об аналитическом конструировании оптимального регулятора при переходит в задачу об оптимальной стабилизации системы (из существования допустимого управления здесь сразу вытекает свойство асимптотич. устойчивости положения равновесия синтезированной системы) (см. [10], [4]). Существование решения в данном случае обеспечивается свойством стабилизируемости системы (см. [4]). Для линейных стационарных и периодич. систем оно эквивалентно свойству управляемости системы по неустойчивым собственным координатам (см. Оптимальное управление программное).
Решение задачи оптимальной стабилизации показало, что соответствующая функция Беллмана является в то же время "оптимальной" функцией Ляпунова для исходной системы с найденным оптимальным управлением. Отмеченные обстоятельства позволили получить эффективные условия стабилизируемости и построить для задач стабилизации полный аналог теории устойчивости по Ляпунову (по первому приближению и в критич. случаях), охватывающий обыкновенные квазилинейные и периодич. системы, а также системы с запаздыванием. В последнем случае роль функции Беллмана играют "оптимальные" функционалы Ляпунова Красовского, заданные на отрезках траектории, соответствующих величине запаздывания в системе (см. [4], [5]). Теория линейно-квадратичных задач оптимального управления хорошо развита и для дифференциальных уравнений с частными производными (см. [11]).
В прикладных задачах синтеза оптимального управления измерение всех фазовых координат системы доступно далеко не всегда. Поэтому возникает следующая задача наблюдения, допускающая многочисленные обобщения: зная на промежутке реализацию доступной измерению функции y=g(t, х).координат системы (1) (при известном u(t), напр. при , и ), найти вектор в заданный момент J. Системы, позволяющие по реализации y[t]однозначным образом восстанавливать , каким бы он ни был, наз. вполне наблюдаемыми.
Свойство полной наблюдаемости, как и построение соответствующих аналитич. операций, выделяющих х(J), а также оптимизация этих операций хорошо изучены для линейных систем. Здесь известен принцип дуальности, состоящий в том, что каждой задаче наблюдения может быть поставлена в соответствие эквивалентная двухточечная краевая задача управления для дуальной системы. Вследствие этого оказывается, что свойство полной наблюдаемости линейной системы совпадает со свойством полной управляемости дуальной системы с управлением. Более того, оказывается, что и соответствующие дуальные экстремальные задачи об оптимальном наблюдении и оптимальном управлении могут быть составлены так, что их решения совпадут (см. [3]). Свойства управляемости и наблюдаемости линейных систем допускают весьма разнообразные обобщения на линейные бесконечномерные объекты (уравнения в банаховом пространстве, системы с отклоняющимся аргументом, дифференциальные уравнения с частными производными). Имеется и ряд результатов, характеризующих соответствующие свойства. Для нелинейных систем известен лишь ряд локальных теорем о наблюдаемости. Решения проблемы наблюдения нашли многочисленные применения в задачах синтеза в условиях неполной информации о координатах, в том числе в задачах оптимальной стабилизации (см. [3]-[5], [14], [15]).
Задача синтеза становится особенно содержательной, когда информация об уравнениях управляемого процесса, исходных начальных условиях и текущих параметрах искажена возмущениями. Если описание возмущений носит статистич. характер, то задачи оптимального управления рассматривают в рамках теории стохастического оптимального управления. Эта теория, начатая с решения стохастических программных задач [10], в наибольшей степени разработана для систем вида
(7)
со случайными возмущениями h(t), описываемыми гауссовскими диффузионными процессами или более общими классами марковских процессов (начальный вектор обычно также считают случайным). При этом, как правило, предполагается, что заданы нек-рые вероятностные характеристики величин h(напр., сведения о моментах соответствующих распределений или о параметрах стохастич, уравнений, описывающих эволюцию процесса h(t)).
В общем случае применение программных и синтезирующих управлений здесь дает существенно различные значения оптимальных показателей J качества (роль таких показателей могут играть, напр., те или иные средние оценки неотрицательных функционалов, заданных на траекториях процесса). Задача синтеза стохастического оптимального управления теперь имеет очевидные преимущества, т. к. непрерывное измерение координат системы позволяет корректировать движение с учетом реального хода случайного процесса, непредсказуемого заранее. Здесь было обнаружено, что метод динамич. программирования совершенно естественным образом сопрягается с теорией бесконечно малых производящих операторов для полугрупп преобразований, генерируемый марковскими случайными процессами. Эти обстоятельства позволили построить и строго обосновать серию достаточных условий оптимальности, приведших к решению на конечном и бесконечном интервале времени ряда задач о синтезе стохастического оптимального управления с полной и неполной информацией о текущих координатах, стохастич. задач преследования и т. д. При этом существенно, что для справедливости принципа оптимальности управление и здесь должно строиться в каждый момент времени t как функция "достаточных координат" z процесса, для к-рых будет обеспечено свойство марковости (см. [5], [6], [17], [18]).
Таким путем, в частности, была разработана теория оптимальной стохастической стабилизации, связанная с соответствующей теорией устойчивости по Ляпунову, развитой для сто-хастич. систем [19].
Для формирования синтезирующего оптимального управления, а также для иных целей управления целесообразно оценивать состояние стохастич. системы по результатам измерения. Решению этого вопроса при условии, что процесс измерения искажается вероятностными "шумами" (т. е. решению задачи наблюдения в условиях случайных возмущений), посвящена теория стохастической фильтрации. Наиболее полные решения здесь известны для линейных систем с квадратичными критериями оптимума (т. н. фильтр Калмана-Бьюси, см. [13]). В применении этой теории к задаче синтеза стохастического оптимального управления были выявлены условия, обеспечивающие справедливость принципа разделения, позволяющего решать собственно задачу управления независимо от задачи оценивания текущих позиции на основе достаточных координат процесса (см. [20]; более общим закономерностям стохастич. фильтрации, а также задачам стохастич. оптимального управления, когда само управление выбирается в классе марковских процессов диффузионного типа, посвящены работы [18], |21]).