LLM2D
基于粒子蒙特卡罗方法的LLMs推理时缩放的概率 inference 方法
A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods
作者: Isha Puri, Shivchander Sudalairaj, Guangxuan Xu, Kai Xu, Akash Srivastava
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01618v2

摘要

arXiv:2502.01618v2 宣告类型: cross 摘要: 大型语言模型(LLMs)通过增加模型规模和/或数据实现了显著的性能提升。然而,最近的证据表明,这种方法的效果在递减,这促使我们在推理时间增加计算量。现有的推理时扩展方法通常使用奖励模型,将任务视为搜索问题,因此由于奖励模型中的近似误差,这种做法往往容易受到奖励作弊的影响。在本文中,我们相反将推理时扩展视为一种概率推理任务,并利用基于采样的技术来探索状态空间模型状态分布的典型集,而非直接优化其模态。我们提出了一种新颖的推理时扩展方法,通过将粒子方法的蒙特卡罗方法适应到此任务中。我们的实证评估表明,与我们的确定性搜索对应方法相比,我们的方法在各种具有挑战性的数学推理任务中的扩展率提高了4-16倍。利用我们的方法,我们展示了Qwen2.5-Math-1.5B-Instruct可以在仅4次滚动中超越GPT-4o的准确度,而Qwen2.5-Math-7B-Instruct仅在32次滚动中就能达到o1级别的准确度。我们的工作不仅提供了一种有效的推理时扩展方法,还连接了概率推理丰富的文献与LLMs的推理时扩展,以在未来的工作中开发更 robust 的算法。有关代码和更多信息,请参见 https://probabilistic-inference-scaling.github.io。