LLM2D
从自我训练的角度重新思考链式思维
Rethinking Chain-of-Thought from the Perspective of Self-Training
作者: Zongqian Wu, Baoduo Xu, Ruochen Cui, Mengmeng Zhan, Xiaofeng Zhu, Lei Feng
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2412.10827v3

摘要

arXiv:2412.10827v3 Announce Type: replace-cross 摘要:链式思考(CoT)推理已经 emerged 作为激活大语言模型(LLMs)潜在能力的有效方法。有趣的是,我们观察到 CoT 推理和自训练之间存在共同的核心目标:迭代利用模型生成的信息,逐步降低预测不确定性。基于这一见解,我们提出了一种新的 CoT 框架以提高推理性能。该框架结合了两个关键组件:(i) 一个针对特定任务的提示模块,优化初始推理过程,以及 (ii) 一个自适应推理迭代模块,动态改进推理过程,并解决之前 CoT 方法的局限性,即过度推理和连续推理迭代之间的高相似性。广泛的经验表明,所提出的方法在性能和计算效率方面均取得了显著优势。