摘要
arXiv:2504.18458v1 交叉公告类型:cross
摘要:近年来,大型视觉-语言模型(LVLMs)的进步揭示了一个“过度思考”的现象,即模型在所有任务中无论问题如何都会生成冗长的推理。为了解决这一问题,我们提出了一种新颖的**FAST**框架,该框架名为**快慢思考**框架,可根据问题特征动态调整推理深度。通过经验分析,我们通过探讨响应长度和数据分布如何影响性能,证明了LVLMs中快慢思考的可能性。我们开发了FAST-GRPO,包括三个组件:基于模型的指标来对问题进行表征、可自适应的思考奖励机制以及难度感知的KL正则化。在七个推理基准上的实验表明,FAST 在相对改进超过10%的同时,较之之前慢思考方法将标记使用量减少了32.7%-67.3%,有效地平衡了推理长度和准确性。