LLM2D

摘要

arXiv:2504.01005v1 类型: cross 摘要: 扩展测试时计算已成为增强大规模语言模型 (LLM) 推理能力的关键策略，特别是在数学问题解决等任务中。一种传统的做法是自一致性 (SC)，它为一个问题生成多个解决方案，并通过众数投票选择最常见的答案。另一种常见方法是使用评分模型（验证器）为每个解决方案打分，然后选择最佳的。最近在生成奖励模型 (GenRM) 方面的进步将验证重新定义为下一个词预测任务，从而沿新的维度扩展推理时的计算量。具体来说，GenRM 为每个解决方案生成多个验证的思维链。在有限的推理计算预算下，这引入了一个根本性的权衡：是将预算用于通过 SC 扩展解决方案的数量，还是生成较少的解决方案并将计算资源分配给 GenRM 的验证？为了解决这个问题，我们在固定推理计算预算下评估 GenRM 对 SC 的效果。有趣的是，我们发现对于各种模型和数据集，在大多数实际推理计算预算下，SC 与 GenRM 相比更为计算高效。例如，GenRM 需要消耗最多 8 倍的推理计算量才能匹配 SC 的效果，并且需要显著更多的计算量才能超越它。此外，我们推导出了 GenRM 帕累托下的推理扩展定律，揭示了计算最优的推理倾向于比扩展验证次数更激进地扩展解决方案生成。我们的工作为优化测试时计算扩展提供了一种实用的指导，通过平衡解决方案生成和验证来实现。代码可在 https://github.com/nishadsinghi/sc-genrm-scaling 获取。