LLM2D
Dualformer:通过学习随机化推理轨迹实现可控制的快速与慢速思考
Dualformer: Controllable Fast and Slow Thinking by Learning with Randomized Reasoning Traces
作者: DiJia Su, Sainbayar Sukhbaatar, Michael Rabbat, Yuandong Tian, Qinqing Zheng
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2410.09918v2

摘要

arXiv:2410.09918v2 公告类型:替换 摘要:在人类认知理论中,人类思维由两个系统主导:快速且直观的系统1和较慢但更为审慎的系统2。近期研究显示,在包括大型语言模型(LLMs)的Transformer中引入系统2的过程,显著增强了其推理能力。然而,纯粹模仿系统2思维模式的模型需要更高的计算成本,并且响应速度也更为缓慢。为应对这一挑战,我们提出了一种称为Dualformer的单一Transformer模型,该模型能够无缝集成快和慢的推理模式。Dualformer通过在带有随机推理轨迹的数据上进行训练获得,训练过程中会根据轨迹结构特定地丢弃轨迹的不同部分。丢弃策略类比于分析我们的思考过程并创建带有模式的捷径。在推理阶段,我们的模型可以配置为仅输出解决方案(快速模式),或同时输出推理链和最终解决方案(慢速模式),或自动决定使用哪种模式(自动模式)。在所有情况下,Dualformer在性能和计算效率上均优于相应的基线模型:(1)在慢速模式下,Dualformer有97.6%的时间能够最优地解决30x30迷宫导航任务,比在完整推理轨迹数据上训练的Searchformer基线模型(性能为93.3%)提高了近6个百分点,同时仅使用45.5%的推理步骤;(2)在快速模式下,Dualformer以80%的最优率完成这些任务,显著优于仅接受解决方案数据进行微调的Solution-Only模型(最优率为30%)。在数学问题上,我们的技术也显示出了在LLM微调中的优越性能,并展示了其超越特定任务模型的一般化能力。