LLM2D
基于变分方法的离线强化学习异常状态校正
Variational OOD State Correction for Offline Reinforcement Learning
作者: Ke Jiang, Wen Jiang, Xiaoyang Tan
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2505.00503v1

摘要

arXiv:2505.00503v1 宣告类型: cross 摘要:离线强化学习的性能受到状态分布偏移问题的重大影响,超分布(OOD)状态校正是解决这一问题的一种流行方法。本文提出了一种名为Density-Aware Safety Perception(DASP)的新型方法,用于OOD状态校正。具体来说,我们的方法鼓励代理优先采取导致更高数据密度结果的行动,从而促进其在其内或返回到已知分布(安全)区域的操作。为了实现这一点,我们在一个同时考虑决策潜在结果及其密度的变分框架内优化目标,从而为安全决策提供关键的上下文信息。最后,通过在离线MuJoCo和AntMaze套件上进行广泛的实验评估,验证了所提出方法的有效性和可行性。