摘要
arXiv:2502.11057v1 安全类型:交叉
摘要:随着自主系统在日常生活中越来越普遍,确保在保证安全的前提下达到高性能是至关重要的。然而,安全和性能可能是互相矛盾的目标,这使得它们的共同优化变得困难。基于学习的方法,如受限强化学习(CRL),可以实现强大的性能,但由于安全仅作为软约束进行强制执行,缺乏正式的安全保证,限制了它们在关键安全领域中的应用。相反,正式方法,如哈密尔顿-雅可比(HJ)可达性分析和控制屏障函数(CBFs),提供了严格的安全保证,但往往忽视了性能,导致控制器过于保守。为了解决这一问题,我们将安全和性能的共同优化形式化为状态受限最优控制问题,其中通过成本函数将性能目标编码,并将安全性要求作为状态约束施加。我们证明了由此产生的价值函数满足哈密尔顿-雅可比-贝尔曼(HJB)方程,并使用一种新的物理启发的机器学习框架高效地进行近似。此外,我们引入了一种基于齐性预测的验证策略来量化学习误差,恢复一个具有高信心的安全值函数,以及性能退化的概率误差界。通过几个案例研究,我们展示了所提议框架的有效性,能够在复杂的高维自主系统中实现安全且高性能控制器的学习。