LLM2D

摘要

arXiv:2410.23912v2 宣布类型: 替换摘要：随着链式思考（CoT）提示技术的提升，大型语言模型（LLMs）的推理能力得到了改善，使其能够逐步解决复杂任务。然而，训练CoT能力需要详细的推理数据，这些数据往往稀缺。通过使用强化学习自动生成推理步骤，自我教育推理框架（STaR）解决了这一问题，减少了对人工标注数据的依赖。尽管STaR及其变体已经展示了实证上的成功，但缺乏对其改进效果的理论解释。本文为理解强化学习在CoT推理中的有效性以及STaR框架提供了理论基础。我们的贡献包括：（1）开始有效推理改进所需的预训练模型质量标准；（2）分析策略改进，说明为什么在STaR的迭代中LLM推理会逐步提高；（3）收敛到最优推理策略的条件；以及（4）探讨STaR的鲁棒性，解释了即使包含偶尔的错误步骤，它如何仍能提高推理能力。该框架旨在将实证发现与理论见解联系起来，推进在LLMs中的推理强化学习方法。