摘要
近期研究表明,推理规模化可能使较弱的语言模型达到甚至超过较强模型的精度,例如通过反复采样编码问题的解决方案直至通过单元测试。本文的核心论点是推理规模化并非免费的午餐:只有当“验证器”(在本例中为一组单元测试)完美无缺时,才能通过重采样实现无限的精度提升。当验证器不完美时(在推理或编码等领域几乎总是如此,例如单元测试覆盖率不完善),存在非零的误报概率:错误的解决方案通过了验证器。重采样无法降低这种概率,因此即使拥有无限的计算资源,它也对基于重采样的推理规模化的精度设置了上限。我们发现,模型的单样本精度(即无单元测试的精度)与其在 HumanEval 和 MBPP 编码基准上的误报率之间存在很强的相关性,而这些基准的单元测试覆盖率有限。因此,无论对较弱模型进行多少推理规模化,都不能使其达到足够强大的模型的单样本精度(图 1a)。当我们认为误报相对于避免产生解决方案而言具有负效用时,它会进一步向下弯曲推理规模化曲线。根据经验,我们发现,在现实假设下,最佳样本数可能小于 10(图 1b)。最后,我们表明,除了精度之外,误报还可能具有其他不良特性,例如对编码风格规范的遵守较差。