LLM2D
RL-STaR:自助推理强化学习框架的理论分析
RL-STaR: Theoretical Analysis of Reinforcement Learning Frameworks for Self-Taught Reasoner
作者: Fu-Chieh Chang, Yu-Ting Lee, Hui-Ying Shih, Yi Hsuan Tseng, Pei-Yuan Wu
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2410.23912v2

摘要

arXiv:2410.23912v2 宣布类型: 替换 摘要:随着链式思考(CoT)提示技术的提升,大型语言模型(LLMs)的推理能力得到了改善,使其能够逐步解决复杂任务。然而,训练CoT能力需要详细的推理数据,这些数据往往稀缺。通过使用强化学习自动生成推理步骤,自我教育推理框架(STaR)解决了这一问题,减少了对人工标注数据的依赖。尽管STaR及其变体已经展示了实证上的成功,但缺乏对其改进效果的理论解释。本文为理解强化学习在CoT推理中的有效性以及STaR框架提供了理论基础。我们的贡献包括:(1)开始有效推理改进所需的预训练模型质量标准;(2)分析策略改进,说明为什么在STaR的迭代中LLM推理会逐步提高;(3)收敛到最优推理策略的条件;以及(4)探讨STaR的鲁棒性,解释了即使包含偶尔的错误步骤,它如何仍能提高推理能力。该框架旨在将实证发现与理论见解联系起来,推进在LLMs中的推理强化学习方法。