LLM2D
我们需要这么多样本吗?多LLM重复采样高效扩展测试时计算能力
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute
作者: Jianhao Chen, Zishuo Xun, Bocheng Zhou, Han Qi, Qiaosheng Zhang, Yang Chen, Wei Hu, Yuzhong Qu, Wanli Ouyang, Shuyue Hu
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.00762v3

摘要

arXiv:2504.00762v3 宣告类型: 替换 摘要:本文提出了一种简单、有效且成本效益高的策略,通过扩展测试时的计算能力来提高大型语言模型(LLM)的性能。该策略基于重复抽样然后投票的框架,引入了一个新的元素:即使是一些较弱的模型,也能充分利用它们从多样化训练数据和范式中可能产生的互补优势。通过使用一致性作为信号,该策略动态地在模型之间切换。理论分析突出了该策略的效率和性能优势。在六个数据集上的广泛实验表明,该策略不仅优于自我一致性以及最先进的多代理辩论方法,还能显著降低推理成本。此外,ModelSwitch 只需少数几个可比的 LLM 即可实现最佳性能,并且可以通过验证方法扩展,这表明在生成-验证范式中利用多个 LLM 的潜力。