LLM2D

摘要

arXiv:2410.09918v2 公告类型：替换摘要：在人类认知理论中，人类思维由两个系统主导：快速且直观的系统1和较慢但更为审慎的系统2。近期研究显示，在包括大型语言模型（LLMs）的Transformer中引入系统2的过程，显著增强了其推理能力。然而，纯粹模仿系统2思维模式的模型需要更高的计算成本，并且响应速度也更为缓慢。为应对这一挑战，我们提出了一种称为Dualformer的单一Transformer模型，该模型能够无缝集成快和慢的推理模式。Dualformer通过在带有随机推理轨迹的数据上进行训练获得，训练过程中会根据轨迹结构特定地丢弃轨迹的不同部分。丢弃策略类比于分析我们的思考过程并创建带有模式的捷径。在推理阶段，我们的模型可以配置为仅输出解决方案（快速模式），或同时输出推理链和最终解决方案（慢速模式），或自动决定使用哪种模式（自动模式）。在所有情况下，Dualformer在性能和计算效率上均优于相应的基线模型：（1）在慢速模式下，Dualformer有97.6%的时间能够最优地解决30x30迷宫导航任务，比在完整推理轨迹数据上训练的Searchformer基线模型（性能为93.3%）提高了近6个百分点，同时仅使用45.5%的推理步骤；（2）在快速模式下，Dualformer以80%的最优率完成这些任务，显著优于仅接受解决方案数据进行微调的Solution-Only模型（最优率为30%）。在数学问题上，我们的技术也显示出了在LLM微调中的优越性能，并展示了其超越特定任务模型的一般化能力。