摘要
arXiv:2412.10827v3 Announce Type: replace-cross
摘要:链式思考(CoT)推理已经 emerged 作为激活大语言模型(LLMs)潜在能力的有效方法。有趣的是,我们观察到 CoT 推理和自训练之间存在共同的核心目标:迭代利用模型生成的信息,逐步降低预测不确定性。基于这一见解,我们提出了一种新的 CoT 框架以提高推理性能。该框架结合了两个关键组件:(i) 一个针对特定任务的提示模块,优化初始推理过程,以及 (ii) 一个自适应推理迭代模块,动态改进推理过程,并解决之前 CoT 方法的局限性,即过度推理和连续推理迭代之间的高相似性。广泛的经验表明,所提出的方法在性能和计算效率方面均取得了显著优势。