LLM2D
SFO: piloting VLM 反馈进行离线 RL
SFO: Piloting VLM Feedback for Offline RL
作者: Jacob Beck
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.01062v3

摘要

arXiv:2503.01062v3 通告类型: replace-cross 摘要:尽管互联网规模的图像和文本数据使视觉语言模型(VLMs)具备了强大的泛化能力,但由于缺乏互联网规模的控制数据,标准强化学习(RL)代理的类似泛化发展受到了阻碍。虽然VLMs由于缺少基于动作的训练数据,在解决控制任务方面本质上是有限制的,但它们在图像理解方面的能力使它们能够在RL任务中通过识别成功的结果来提供有价值的反馈。在AI反馈的强化学习(RLAIF)中的一个关键挑战是如何最好地将VLM衍生的信号融入学习过程。我们在此背景下探讨了这一问题,并介绍了称为子轨迹过滤优化的一类方法。我们发现了三个关键见解。首先,轨迹长度在离线RL中起着关键作用,因为全长轨迹偏好学习加剧了拼接问题,需要使用子轨迹。其次,即使在马尔可夫环境中,也需要一个来自图像序列的非马尔可夫奖赏信号来评估轨迹改进,因为VLMs无法解释控制动作,只能依赖时间上的视觉线索。第三,一种简单而有效的方法——过滤和加权行为克隆——在基于人类反馈的复杂强化学习方法中表现更优。我们提出了一种基于子轨迹的过滤行为克隆方法,该方法利用VLM对子轨迹的反馈,并结合了一个回顾性过滤机制,该机制删除了失败前的子轨迹,以提高稳健性和防止出现瞬息变化。这项研究是初步的;我们通过在玩具控制领域进行评估提供了初步证据。请享受我们的机场双关语。