LLM2D

摘要

arXiv:2505.00503v1 宣告类型: cross 摘要：离线强化学习的性能受到状态分布偏移问题的重大影响，超分布（OOD）状态校正是解决这一问题的一种流行方法。本文提出了一种名为Density-Aware Safety Perception（DASP）的新型方法，用于OOD状态校正。具体来说，我们的方法鼓励代理优先采取导致更高数据密度结果的行动，从而促进其在其内或返回到已知分布（安全）区域的操作。为了实现这一点，我们在一个同时考虑决策潜在结果及其密度的变分框架内优化目标，从而为安全决策提供关键的上下文信息。最后，通过在离线MuJoCo和AntMaze套件上进行广泛的实验评估，验证了所提出方法的有效性和可行性。