LLM2D

摘要

arXiv:2505.00503v2 宣告类型: replace-cross 摘要：离线强化学习的性能显著受到状态分布偏移问题的影响，而离分布外（OOD）状态校正是解决这一问题的一种流行方法。在本文中，我们提出了一种名为密度感知安全感知（DASP）的新方法，以解决OOD状态校正问题。具体而言，我们的方法鼓励代理优先执行导致更高数据密度结果的动作，从而促进其操作在或返回到分布内（安全）区域。为了实现这一点，我们在同时考虑决策潜在结果及其密度的变分框架内优化目标，从而为安全决策提供关键的上下文信息。最后，我们通过在离线下MuJoCo和AntMaze套件上进行广泛的实验评估，验证了我们提出方法的有效性和可行性。