LLM2D

摘要

arXiv:2503.09567v3 宣告类型: 替换摘要: 在大型语言模型（RLLMs）推理方面最近取得的进步，例如OpenAI-O1和DeepSeek-R1，在数学和编程等复杂领域展示了其令人印象深刻的性能。他们成功的关键因素在于长链推理（Long CoT）特征的应用，这些特征增强了推理能力并使解决复杂问题成为可能。然而，尽管这些进展，关于Long CoT的全面调查仍然缺乏，限制了我们对其与传统的短链推理（Short CoT）区别的理解，同时也复杂了关于“过度思考”和“测试时缩放”等问题的持续争论。本调查旨在通过提供一个统一的Long CoT视角来填补这一空白。(1) 首先，我们将Long CoT与Short CoT区分开，并引入一个新颖的分类法来分类当前的推理范式。(2) 接着，我们探讨了Long CoT的关键特征：深层推理、广泛探索和可行反思，这些特征使模型能够处理更复杂的任务并产生比浅层Short CoT更高效、更连贯的结果。(3) 我们还研究了这些特征导致Long CoT出现的关键现象，包括过度思考和测试时缩放，提供了这些过程在实践中的表现见解。(4) 最后，我们确定了关键的研究空白并突出了未来有希望的方向，包括多模态推理的整合、效率改进和增强知识框架。通过提供一个结构化的概览，本调查旨在激发未来的研究，并促进人工智能逻辑推理的发展。