LLM2D
大型视觉-语言模型推理中的快慢思维方法
Fast-Slow Thinking for Large Vision-Language Model Reasoning
作者: Wenyi Xiao, Leilei Gan, Weilong Dai, Wanggui He, Ziwei Huang, Haoyuan Li, Fangxun Shu, Zhelun Yu, Peng Zhang, Hao Jiang, Fei Wu
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2504.18458v1

摘要

arXiv:2504.18458v1 交叉公告类型:cross 摘要:近年来,大型视觉-语言模型(LVLMs)的进步揭示了一个“过度思考”的现象,即模型在所有任务中无论问题如何都会生成冗长的推理。为了解决这一问题,我们提出了一种新颖的**FAST**框架,该框架名为**快慢思考**框架,可根据问题特征动态调整推理深度。通过经验分析,我们通过探讨响应长度和数据分布如何影响性能,证明了LVLMs中快慢思考的可能性。我们开发了FAST-GRPO,包括三个组件:基于模型的指标来对问题进行表征、可自适应的思考奖励机制以及难度感知的KL正则化。在七个推理基准上的实验表明,FAST 在相对改进超过10%的同时,较之之前慢思考方法将标记使用量减少了32.7%-67.3%,有效地平衡了推理长度和准确性。