LLM2D
样本审查与扩展:通过扩展验证实现有效的推理时搜索
Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification
作者: Eric Zhao, Pranjal Awasthi, Sreenivas Gollapudi
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.01839v2

摘要

arXiv:2502.01839v2 宣告类型: replace-cross 摘要:基于采样的搜索是一种利用推理时计算资源的简单范式,涉及生成多个候选响应并选择最佳响应——通常是由模型自我验证每个响应的正确性。在本文中,我们研究了控制基于采样的搜索的扩展趋势。我们的发现之一是,简单地扩展基于采样的搜索的最小实现版本,仅使用随机采样和直接自我验证,提供了一种实用的推理方法,例如,在流行基准测试中,这提高了Gemini v1.5 Pro的推理能力,使其超过o1-Preview。我们部分归因于基于采样的搜索的可扩展性到一种隐含的扩展现象,即在更大规模的响应池中进行采样会提高自我验证的准确性。我们还识别出了两个有用的原理,以提高基于推理时计算资源的自我验证能力:(1)在不同响应之间进行比较可以提供有关错误和幻觉位置的有用信号;(2)不同的模型输出风格在不同上下文中很有用——推理过程中的思维链很有用,但难于验证。我们还发现,尽管可以引发准确的验证,最前沿的模型在开箱即用的验证能力方面表现出令人惊讶的薄弱,我们引入了一个基准测试来衡量这些缺陷的进展。