LLM2D
大规模语言模型测试时计算量的简单可证明缩放法则
Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models
作者: Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2411.19477v2

摘要

arXiv:2411.19477v2 通知类型: replace-cross 摘要: 我们提出了一种简单而有原则的方法,这些方法为大型语言模型(LLMs)的测试时计算提供了可证明的缩放定律,只需要一个黑盒LLM和其他任何东西(例如,不需要外部验证器或奖励模型)即可实现最小的实施。 (i) 第一种方法是一种两阶段拔河式算法:给定一个输入问题,它首先生成多个候选解决方案,然后通过两两比较候选解决方案的淘汰赛,将它们聚合为最终输出。假设LLM能够以非零概率生成正确解,并且在比较一对正确解和错误解时表现优于随机猜测,我们理论上证明,随着测试时计算的增长,该算法的失败概率以指数或幂律(取决于具体的缩放方式)的形式衰减为零。 (ii) 第二种方法是一种两阶段联赛式算法,其中每个候选解决方案通过与其他多个对手的平均胜率来评估,而不是在失败后被一个对手淘汰。在与淘汰式算法要求相似但更为 robust 的技术假设下,我们理论上证明,随着测试时计算的增长,联赛式算法的失败概率也以指数形式衰减为零。通过在两个具有挑战性的基准测试GPQA和MMLU-Pro上进行广泛的实验,我们验证了所提出的理论,并展示了这两种算法卓越的缩放性能。