LLM2D

摘要

arXiv:2504.18458v1 交叉公告类型：cross 摘要：近年来，大型视觉-语言模型（LVLMs）的进步揭示了一个“过度思考”的现象，即模型在所有任务中无论问题如何都会生成冗长的推理。为了解决这一问题，我们提出了一种新颖的**FAST**框架，该框架名为**快慢思考**框架，可根据问题特征动态调整推理深度。通过经验分析，我们通过探讨响应长度和数据分布如何影响性能，证明了LVLMs中快慢思考的可能性。我们开发了FAST-GRPO，包括三个组件：基于模型的指标来对问题进行表征、可自适应的思考奖励机制以及难度感知的KL正则化。在七个推理基准上的实验表明，FAST 在相对改进超过10%的同时，较之之前慢思考方法将标记使用量减少了32.7%-67.3%，有效地平衡了推理长度和准确性。