LLM2D
GFlowVLM:生成流网络增强视觉-语言模型的多步推理能力
GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow Networks
作者: Haoqiang Kang, Enna Sachdeva, Piyush Gupta, Sangjae Bae, Kwonjoon Lee
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.06514v2

摘要

arXiv:2503.06514v2 宣传类型: 替换交叉 摘要:视觉-语言模型(VLMs)在通过任务特定微调后,在序列决策任务中展现出了令人鼓舞的进步。然而,常见的微调方法,如监督微调(SFT)和基于强化学习(RL)的技术(如近端策略优化PPO),存在明显的局限性:SFT 假设数据独立且同分布(IID),而 PPO 则关注最大化累积奖励。这些局限性往往限制了解决方案的多样性,并阻碍了在多步推理任务中的泛化能力。为了解决这些挑战,我们提出了一种新的框架 GFlowVLM,该框架使用生成流网络(GFlowNets)来微调 VLMs,以促进为复杂推理任务生成多样化的解决方案。GFlowVLM 将环境建模为非马尔可夫决策过程,使其能够捕捉到对于实际应用至关重要的长期依赖关系。它接受观察和任务描述作为输入,以提示思维链(CoT)推理,随后指导行动选择。我们使用基于任务的奖励来使用 GFlowNets 微调 VLMs。这种方法使 VLMs 能够超越先前的微调方法,包括 SFT 和 RL。实证结果表明,GFlowVLM 在复杂任务(如卡片游戏(NumberLine, BlackJack)和感知计划任务(ALFWorld))上表现出有效性,展示了增强的训练效率、解决方案的多样性以及更强的泛化能力,涵盖分布内和分布外场景。