LLM2D
语言模型是隐含的推理器:通过自我奖励解锁潜在的推理能力
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding
作者: Haolin Chen, Yihao Feng, Zuxin Liu, Weiran Yao, Akshara Prabhakar, Shelby Heinecke, Ricky Ho, Phil Mui, Silvio Savarese, Caiming Xiong, Huan Wang
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2411.04282v2

摘要

大型语言模型 (LLM) 已经展现出令人印象深刻的能力,但仍然难以胜任需要多步骤的复杂推理任务。虽然基于提示的方法,例如思维链 (CoT),可以在推理时改进 LLM 的推理能力,但在训练期间优化推理能力仍然具有挑战性。我们引入了潜在推理优化 (LaTRO) 框架,该框架将推理公式化为从潜在分布中采样并通过变分方法对其进行优化。LaTRO 使 LLM 能够同时改进其推理过程和评估推理质量的能力,而无需外部反馈或奖励模型。我们通过使用多个模型架构在 GSM8K 和 ARC-Challenge 数据集上进行的实验验证了 LaTRO。在 GSM8K 上,与基准模型相比,LaTRO 将零样本准确率平均提高了 12.5%,与 Phi-3.5-mini、Mistral-7B 和 Llama-3.1-8B 的监督微调相比提高了 9.6%。我们的研究结果表明,预训练的 LLM 拥有可以通过我们提出的自改进优化方法解锁和增强的潜在推理能力。LaTRO 的代码可在 \url{https://github.com/SalesforceAIResearch/LaTRO} 获取。