LLM2D

摘要

arXiv:2504.10903v1 通告类型: cross 摘要: 推理模型在生成扩展的思维链(Chain-of-Thoughts, CoTs)之前通过生成详细的思维过程解决了复杂且逻辑密集的任务方面展现出了显著的进步。然而，这种“慢思考”范式的出现，伴随着大量按顺序生成的标记，不可避免地引入了巨大的计算开销。为此，强调了有效加速的迫切需求。本文综述旨在提供近年来高效推理进展的全面概述。它将现有的工作归类为三个关键方向：(1) 更短的 - 将长思维链压缩为简洁但有效的推理链；(2) 更小的 - 通过知识蒸馏、其他模型压缩技术以及强化学习等方法开发紧凑的语言模型，具备强大的推理能力；(3) 更快的 - 设计高效的解码策略以加速推理。本文综述中讨论的论文集合可以在我们的GitHub仓库中查阅。