摘要
arXiv:2501.18858v1 Announce Type: 跨域
摘要:大规模语言模型(LLMs)在复杂推理任务中展现了显著的能力,但是在生成可靠的推理过程方面仍然面临着重大挑战。我们提出了一种统一的概率框架,通过一种新的图形模型来形式化LLM的推理过程,该模型结合了潜在的思考过程和评估信号。在这个框架内,我们引入了Bootstrapping Reinforced Thinking Process(BRiTE)算法,该算法分为两步进行。首先,它通过强化学习来近似最优的思考过程,使用了一种新的奖励塑造机制,生成高质量的理由。其次,它通过最大化理由生成与模型参数的联合概率来增强基础LLM。理论上,我们证明了BRiTE在迭代次数为$T$时以$1/T$的速度收敛。在数学和编码基准测试上的实证评估表明,我们的方法在不同的基础模型上能够持续提高性能,而无需使用人工标注的思考过程。此外,BRiTE在使用替代方法如拒绝采样来启动思考过程的现有算法中展现出更优的性能,并且甚至可以达到或超过使用人工标注数据进行监督微调所获得的结果。