LLM2D

摘要

arXiv:2504.16129v1 交叉公告类型摘要：基于LLM的多智能体系统在解决需要多方面推理和协作的复杂、代理性任务方面展示了显著的能力，从生成高质量的演示文稿到进行复杂的科学研究。与此同时，强化学习因其在增强智能代理方面的有效性而广受认可，但对使用基础RL技术微调LaMAS的研究有限。此外，直接将MARL方法应用于LaMAS引入了重大挑战，这些挑战源自LaMAS固有的特性和机制。为了解决这些问题，本文对基于LLM的MARL进行了全面研究，并提出了一种新颖的范式，称为多智能体强化微调（MARFT）。我们介绍了一种通用的算法框架，专门针对LaMAS，概述了概念基础、关键区别和实用实现策略。首先，我们回顾了从RL到强化微调的发展，为多智能体领域中的并行分析奠定了基础。在LaMAS的背景下，我们阐明了MARL和MARFT之间的重要区别。这些区别促使我们转向一种新颖的、以LaMAS为导向的RFT形式。本文的核心在于展示了一个稳健且可扩展的MARFT框架。我们详细阐述了核心算法，并提供了完整的开源实现，以促进采用和进一步的研究。论文的后部分探讨了MARFT在实际应用中的视角和开放挑战。通过将理论基础与实用方法相结合，本文旨在为寻求推进MARFT以实现稳健和自适应代理系统解决方案的研究人员提供路线图。我们提出的框架的实现可在以下网址获取：https://github.com/jwliao-ai/MARFT。