LLM2D

摘要

arXiv:2502.01618v2 宣告类型: replace-cross 摘要：大规模语言模型（LLMs）通过扩大模型规模和/或数据规模实现了显著的性能提升。然而，最近的证据表明，这种方法的回报正在减少，这促使我们在推理时扩大计算规模。现有的推理时扩展方法通常使用奖励模型，将任务视为搜索问题，这会导致奖励模型中的近似误差导致奖励欺骗。在本文中，我们相反地将推理时扩展视为概率推理任务，并利用基于采样的技术来探索具有近似似然的状态空间模型的状态分布的典型集，而不是直接优化其模式。我们提出了一种新的推理时扩展方法，通过将粒子蒙特卡洛方法适应到此任务。我们的实证评估表明，与我们的确定性搜索方法相比，我们的方法在各种具有挑战性的数学推理任务上的扩展率提高了4-16倍。使用我们的方法，我们展示了Qwen2.5-Math-1.5B-Instruct在仅4轮次中可以超越GPT-4o的准确性，而Qwen2.5-Math-7B-Instruct仅在32轮次中就能达到o1级准确性。我们的工作不仅提供了一种有效的推理时扩展方法，还通过将概率推理的丰富文献与LLMs的推理时扩展相结合，为未来开发更稳健的算法奠定了基础。代码和更多详细信息可在 https://probabilistic-inference-scaling.github.io 获取。