LLM2D
我们真的需要这么多样本吗?多LLM重复采样高效扩展测试时计算能力
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute
作者: Jianhao Chen, Zishuo Xun, Bocheng Zhou, Han Qi, Qiaosheng Zhang, Yang Chen, Wei Hu, Yuzhong Qu, Wanli Ouyang, Shuyue Hu
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2504.00762v2

摘要

arXiv:2504.00762v2 提交类型: 重新提交 摘要:本文提出了一种简单、有效且成本效益高的策略,通过扩展测试时计算来提高LLM性能。该策略建立在重复采样和投票框架之上,具有一个新颖的变体:结合多个模型,即使这些模型较弱,也可以利用它们由于多样化的训练数据和范式而可能产生的互补优势。通过使用一致性作为信号,我们的策略可以动态切换模型。理论分析突显了该策略的效率和性能优势。在六个数据集上的 extensive 实验表明,我们的策略不仅优于自我一致性以及最先进的多智能体辩论方法,而且显著降低了推理成本。此外,ModelSwitch 只需少量可比拟的LLM就能达到最佳性能,并且可以与验证方法结合使用,展示了利用多个LLM进行生成-验证范式的潜力。