LLM2D

摘要

arXiv:2503.01062v3 通告类型: replace-cross 摘要：尽管互联网规模的图像和文本数据使视觉语言模型（VLMs）具备了强大的泛化能力，但由于缺乏互联网规模的控制数据，标准强化学习（RL）代理的类似泛化发展受到了阻碍。虽然VLMs由于缺少基于动作的训练数据，在解决控制任务方面本质上是有限制的，但它们在图像理解方面的能力使它们能够在RL任务中通过识别成功的结果来提供有价值的反馈。在AI反馈的强化学习（RLAIF）中的一个关键挑战是如何最好地将VLM衍生的信号融入学习过程。我们在此背景下探讨了这一问题，并介绍了称为子轨迹过滤优化的一类方法。我们发现了三个关键见解。首先，轨迹长度在离线RL中起着关键作用，因为全长轨迹偏好学习加剧了拼接问题，需要使用子轨迹。其次，即使在马尔可夫环境中，也需要一个来自图像序列的非马尔可夫奖赏信号来评估轨迹改进，因为VLMs无法解释控制动作，只能依赖时间上的视觉线索。第三，一种简单而有效的方法——过滤和加权行为克隆——在基于人类反馈的复杂强化学习方法中表现更优。我们提出了一种基于子轨迹的过滤行为克隆方法，该方法利用VLM对子轨迹的反馈，并结合了一个回顾性过滤机制，该机制删除了失败前的子轨迹，以提高稳健性和防止出现瞬息变化。这项研究是初步的；我们通过在玩具控制领域进行评估提供了初步证据。请享受我们的机场双关语。