LLM2D
我们需要这么多样本吗?多语言模型重复采样高效扩展测试时计算
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute
作者: Jianhao Chen, Zishuo Xun, Bocheng Zhou, Han Qi, Hangfan Zhang, Qiaosheng Zhang, Yang Chen, Wei Hu, Yuzhong Qu, Wanli Ouyang, Shuyue Hu
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2504.00762v4

摘要

arXiv:2504.00762v4 宣告类型:替换 摘要:本文提出了一种通过扩大测试时计算量来提升大语言模型性能的简单、有效且成本效益高的策略。该策略基于重复采样然后投票的框架,但引入了一个新颖的元素:即使使用较弱的模型,也能利用它们从多样化的训练数据和范式中可能出现的互补优势。通过一致性作为信号,该策略能够动态切换模型。理论分析突显了该策略在效率和性能方面的优势。在六个数据集上的广泛实验表明,该策略不仅优于自我一致性以及最先进的多代理辩论方法,还能显著降低推理成本。此外,ModelSwitch 只需少量可比的大语言模型就能达到最佳性能,并且可以结合验证方法进行扩展,展示了利用多个大语言模型在生成-验证范式中的潜力。