LLM2D

摘要

近期研究表明，推理规模化可能使较弱的语言模型达到甚至超过较强模型的精度，例如通过反复采样编码问题的解决方案直至通过单元测试。本文的核心论点是推理规模化并非免费的午餐：只有当“验证器”（在本例中为一组单元测试）完美无缺时，才能通过重采样实现无限的精度提升。当验证器不完美时（在推理或编码等领域几乎总是如此，例如单元测试覆盖率不完善），存在非零的误报概率：错误的解决方案通过了验证器。重采样无法降低这种概率，因此即使拥有无限的计算资源，它也对基于重采样的推理规模化的精度设置了上限。我们发现，模型的单样本精度（即无单元测试的精度）与其在 HumanEval 和 MBPP 编码基准上的误报率之间存在很强的相关性，而这些基准的单元测试覆盖率有限。因此，无论对较弱模型进行多少推理规模化，都不能使其达到足够强大的模型的单样本精度（图 1a）。当我们认为误报相对于避免产生解决方案而言具有负效用时，它会进一步向下弯曲推理规模化曲线。根据经验，我们发现，在现实假设下，最佳样本数可能小于 10（图 1b）。最后，我们表明，除了精度之外，误报还可能具有其他不良特性，例如对编码风格规范的遵守较差。