LLM2D

摘要

arXiv:2503.06514v2 宣传类型: 替换交叉摘要：视觉-语言模型（VLMs）在通过任务特定微调后，在序列决策任务中展现出了令人鼓舞的进步。然而，常见的微调方法，如监督微调（SFT）和基于强化学习（RL）的技术（如近端策略优化PPO），存在明显的局限性：SFT 假设数据独立且同分布（IID），而 PPO 则关注最大化累积奖励。这些局限性往往限制了解决方案的多样性，并阻碍了在多步推理任务中的泛化能力。为了解决这些挑战，我们提出了一种新的框架 GFlowVLM，该框架使用生成流网络（GFlowNets）来微调 VLMs，以促进为复杂推理任务生成多样化的解决方案。GFlowVLM 将环境建模为非马尔可夫决策过程，使其能够捕捉到对于实际应用至关重要的长期依赖关系。它接受观察和任务描述作为输入，以提示思维链（CoT）推理，随后指导行动选择。我们使用基于任务的奖励来使用 GFlowNets 微调 VLMs。这种方法使 VLMs 能够超越先前的微调方法，包括 SFT 和 RL。实证结果表明，GFlowVLM 在复杂任务（如卡片游戏（NumberLine, BlackJack）和感知计划任务（ALFWorld））上表现出有效性，展示了增强的训练效率、解决方案的多样性以及更强的泛化能力，涵盖分布内和分布外场景。