LLM2D

摘要

变分法是函数优化数学，即当解是时间间隔上的函数时。这在时间间隔未知的情况下（如最小时间控制问题）尤其重要，因此无法进行时间向前解。变分法为学习最优控制和推理提供了一个强大的框架。如何利用这个框架设计神经网络来解决控制和推理方面的挑战？我们提出了庞特里亚金最大值原理神经网络（PMP-net），它专门用于估计控制和推理解，符合庞特里亚金最大值原理概述的必要条件。我们在两个经典的最优控制和推理问题上评估了 PMP-net：最优线性滤波和最小时间控制。我们的发现表明，PMP-net 可以有效地以无监督方式进行训练来解决这些问题，而无需真实数据，成功地推导出经典的“卡尔曼滤波器”和“bang-bang”控制解。这为解决一般性的、可能尚未解决的最优控制问题提供了一种新方法。