摘要
arXiv:2502.01839v1 采样类型:交叉
摘要:基于采样的搜索是一种利用测试时计算的简单模式,涉及生成多个候选响应并选择最佳一个——通常是通过验证每个响应的正确性来实现。在本文中,我们研究了支配基于采样的搜索的缩放趋势。我们的发现之一是,仅使用随机采样和直接自我验证的极简实施的简单放大会导致持续的性能改进,例如,使Gemini v1.5 Pro模型在流行基准上的推理能力超越o1-Preview。我们部分归因于基于采样的搜索的可扩展性是由于一种隐式的缩放现象,即采样更大的响应池反过来可以提高验证准确性。我们还发现了两个有用的原则,以通过测试时计算提高自我验证能力:(1)对比响应之间的差异提供了有关错误和幻觉位置的帮助信号,以及(2)不同的模型输出风格在不同的上下文中有用——思维链对推理很有用,但验证起来更困难。我们还发现,尽管可以激发准确的验证,前沿模型在开箱即用的验证能力上表现出异常薄弱,我们引入了一个基准来衡量改进这些缺陷的进展。