摘要
针对特定视觉指令遵循数据微调的大型视觉语言模型 (VLMs) 在各种场景中展现了令人印象深刻的语言推理能力。然而,这种微调范式可能无法有效地从交互式环境中学习多步骤目标导向任务中的最优决策代理。为了解决这一挑战,我们提出了一种利用强化学习 (RL) 微调 VLMs 的算法框架。具体来说,我们的框架提供任务描述,然后提示 VLM 生成思维链 (CoT) 推理,使 VLM能够有效地探索通向最终基于文本的动作的中间推理步骤。接下来,将开放式文本输出解析为可执行动作,以与环境交互以获得目标导向的任务奖励。最后,我们的框架使用这些任务奖励通过 RL 来微调整个 VLM。实证结果表明,我们提出的框架增强了 VLM 代理在各种任务中的决策能力,使 7b 模型的性能优于 GPT4-V 或 Gemini 等商业模型。此外,我们发现 CoT 推理是性能提升的关键组成部分,因为去除 CoT 推理会导致我们方法的整体性能显著下降。