LLM2D
两个头比一个好:多代理协作推理的测试时扩展
Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning
作者: Can Jin, Hongwu Peng, Qixin Zhang, Yujin Tang, Dimitris N. Metaxas, Tong Che
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09772v1

摘要

arXiv:2504.09772v1 宣告类型: 新 摘 要: 以大规模语言模型(LLMs)为基础构建的多智能体系统(MAS)为解决单智能体系统常常难以管理的复杂现实任务提供了具有前景的途径。虽然最近在测试时放大规模(TTS)方面的进展显著提升了单智能体在具挑战性的推理任务上的性能,但如何有效扩展MAS中的协作与推理仍然是一个开放的问题。在本文中,我们介绍了一个适应性多智能体框架,该框架通过模型级训练和系统级协调来增强协作推理。我们构建了包含500个协作推理踪迹的高质量数据集M500,并在该数据集上对Qwen2.5-32B-Instruct进行微调,生成了M1-32B模型,该模型专门优化了多智能体协作。为了进一步增强适应性推理,我们提出了一种新的CEO代理,该代理动态管理讨论过程,指导智能体间的协作并调整推理深度,以实现更有效的问题解决。在一系列任务中评估了我们的系统,包括一般理解、数学推理和编程任务,我们的系统显著优于强基线。例如,M1-32B在GPQA-Diamond上实现了12%的改进,在AIME2024上实现了41%的改进,在MBPP-Sanitized上实现了10%的改进,部分任务与最先进的模型DeepSeek-R1的性能相当。这些结果突显了在扩展多智能体推理时学习协作和适应性协调的重要性。代码可在https://github.com/jincan333/MAS-TTS获取。