LLM2D
基于变分方法的离线强化学习异常状态校正
Variational OOD State Correction for Offline Reinforcement Learning
作者: Ke Jiang, Wen Jiang, Masahiro Fujisawa, Xiaoyang Tan
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.00503v2

摘要

arXiv:2505.00503v2 宣告类型: replace-cross 摘要:离线强化学习的性能显著受到状态分布偏移问题的影响,而离分布外(OOD)状态校正是解决这一问题的一种流行方法。在本文中,我们提出了一种名为密度感知安全感知(DASP)的新方法,以解决OOD状态校正问题。具体而言,我们的方法鼓励代理优先执行导致更高数据密度结果的动作,从而促进其操作在或返回到分布内(安全)区域。为了实现这一点,我们在同时考虑决策潜在结果及其密度的变分框架内优化目标,从而为安全决策提供关键的上下文信息。最后,我们通过在离线下MuJoCo和AntMaze套件上进行广泛的实验评估,验证了我们提出方法的有效性和可行性。