LLM2D
基于粒子蒙特卡洛方法的LLMs推断时伸缩的概率推理方法
A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods
作者: Isha Puri, Shivchander Sudalairaj, Guangxuan Xu, Kai Xu, Akash Srivastava
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01618v1

摘要

arXiv:2502.01618v1 类型: cross 摘要: 大型语言模型(LLMs)通过扩大模型规模和/或数据实现了显著的性能提升。然而,近期的证据表明,这种方法的效果正逐渐减弱,促使人们在推断时间扩展计算量。现有的推断时间扩展方法,通常使用奖励模型,将任务视为一个搜索问题,但由于奖励模型中近似误差的影响,这种方法往往会受到奖励作弊的困扰。在本文中,我们相反地将推断时间扩展视为一项概率推断任务,并利用采样技术探索状态空间模型在近似似然下状态分布的典型集,而不是直接优化其模式。我们提出了一种新的推断时间扩展方法,通过将粒子蒙特卡洛方法适应到这一任务。我们的实证评估表明,与我们的确定性搜索方法相比,我们的方法在各种具有挑战性的数学推理任务上的扩展速率提高了4-16倍。使用我们的方法,我们展示了Qwen2.5-Math-1.5B-Instruct可以在仅4次滚动后超越GPT-4o的准确度,而Qwen2.5-Math-7B-Instruct仅需32次滚动即可达到o1级别的准确度。我们的工作不仅提供了一种有效的推断时间扩展方法,还连接了概率推断丰富的文献与LLMs的推断时间扩展,为未来的工作开发更稳健的算法奠定了基础。代码和更多信息可在https://probabilistic-inference-scaling.github.io 获取。