摘要
arXiv:2503.09567v3 宣告类型: 替换
摘要: 在大型语言模型(RLLMs)推理方面最近取得的进步,例如OpenAI-O1和DeepSeek-R1,在数学和编程等复杂领域展示了其令人印象深刻的性能。他们成功的关键因素在于长链推理(Long CoT)特征的应用,这些特征增强了推理能力并使解决复杂问题成为可能。然而,尽管这些进展,关于Long CoT的全面调查仍然缺乏,限制了我们对其与传统的短链推理(Short CoT)区别的理解,同时也复杂了关于“过度思考”和“测试时缩放”等问题的持续争论。本调查旨在通过提供一个统一的Long CoT视角来填补这一空白。(1) 首先,我们将Long CoT与Short CoT区分开,并引入一个新颖的分类法来分类当前的推理范式。(2) 接着,我们探讨了Long CoT的关键特征:深层推理、广泛探索和可行反思,这些特征使模型能够处理更复杂的任务并产生比浅层Short CoT更高效、更连贯的结果。(3) 我们还研究了这些特征导致Long CoT出现的关键现象,包括过度思考和测试时缩放,提供了这些过程在实践中的表现见解。(4) 最后,我们确定了关键的研究空白并突出了未来有希望的方向,包括多模态推理的整合、效率改进和增强知识框架。通过提供一个结构化的概览,本调查旨在激发未来的研究,并促进人工智能逻辑推理的发展。