LLM2D

摘要

arXiv:2502.11057v1 安全类型：交叉摘要：随着自主系统在日常生活中越来越普遍，确保在保证安全的前提下达到高性能是至关重要的。然而，安全和性能可能是互相矛盾的目标，这使得它们的共同优化变得困难。基于学习的方法，如受限强化学习（CRL），可以实现强大的性能，但由于安全仅作为软约束进行强制执行，缺乏正式的安全保证，限制了它们在关键安全领域中的应用。相反，正式方法，如哈密尔顿-雅可比（HJ）可达性分析和控制屏障函数（CBFs），提供了严格的安全保证，但往往忽视了性能，导致控制器过于保守。为了解决这一问题，我们将安全和性能的共同优化形式化为状态受限最优控制问题，其中通过成本函数将性能目标编码，并将安全性要求作为状态约束施加。我们证明了由此产生的价值函数满足哈密尔顿-雅可比-贝尔曼（HJB）方程，并使用一种新的物理启发的机器学习框架高效地进行近似。此外，我们引入了一种基于齐性预测的验证策略来量化学习误差，恢复一个具有高信心的安全值函数，以及性能退化的概率误差界。通过几个案例研究，我们展示了所提议框架的有效性，能够在复杂的高维自主系统中实现安全且高性能控制器的学习。