Главная > Небесная механика > Справочное руководство по небесной механике и астродинамике
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

§ 1.10. Принцип оптимальности Беллмана

Пусть состояние некоторой физической системы определяется -мерным фазовым вектором у. Пусть, кроме того, имеется семейство преобразований с переменным вектором (решением) и, играющим роль параметра и переводящим вектор у в вектор

Процесс, состоящий из выбора решений назовем -шаговым процессом.

Свяжем с -шаговым процессом некоторую скалярную функцию

называемую критерием или функцией дохода.

Последовательность допустимых решений называется политикой (стратегией). Политика, обеспечивающая максимальное значение функции дохода называется оптимальной политикой или оптимальной стратегией.

Имеет место принцип оптимальности [44]. Оптимальная стратегия обладает тем свойством, что каковы бы ни были начальное состояние и принятое начальное решение, последующие решения должны составлять оптимальную стратегию относительно состояния, возникшего в результате первоначального решения.

Из этого принципа выводятся основные уравнения динамического программирования (уравнения Беллмана), которые могут рассматриваться как некоторые рекуррентные соотношения, описывающие многошаговую оптимизацию в предельном случае при неограниченном возрастании числа шагов. Уравнения Беллмана являются функциональными уравнениями и им можно придать различный вид.

Например, если рассматривается задача о максимизации функционала

при ограничениях

то, как показано в [44], решение этой задачи сводится к решению функционального уравнения

где — «функция дохода на бесконечном числе шагов»

в терминологии Беллмана [44].

<< Предыдущий параграф Следующий параграф >>
Оглавление