摘要
arXiv:2505.00503v1 宣告类型: cross
摘要:离线强化学习的性能受到状态分布偏移问题的重大影响,超分布(OOD)状态校正是解决这一问题的一种流行方法。本文提出了一种名为Density-Aware Safety Perception(DASP)的新型方法,用于OOD状态校正。具体来说,我们的方法鼓励代理优先采取导致更高数据密度结果的行动,从而促进其在其内或返回到已知分布(安全)区域的操作。为了实现这一点,我们在一个同时考虑决策潜在结果及其密度的变分框架内优化目标,从而为安全决策提供关键的上下文信息。最后,通过在离线MuJoCo和AntMaze套件上进行广泛的实验评估,验证了所提出方法的有效性和可行性。