LLM2D

摘要

arXiv:2504.00762v1 Announce Type: 新摘要：本文提出了一种简单、有效且成本效益高的策略，通过扩展测试时的计算量来提高大型语言模型（LLM）的性能。该策略建立在重复抽样和投票的框架之上，另有创新之处：即使使用较弱的模型，也能利用它们从多样化训练数据和范式中产生的潜在互补优势。通过一致性作为信号，我们的策略能够动态地在不同模型之间切换。理论分析强调了我们策略的效率和性能优势。在六个数据集上的广泛实验表明，我们的策略不仅优于自我一致性以及最先进的多代理辩论方法，还显著降低了推理成本。此外，ModelSwitch 只需少量可比的 LLM 即可实现最佳性能，并且可以通过验证方法扩展，展示了在生成-验证范式中利用多个 LLM 的潜力。