LLM2D
MARFT: 多代理 reinforcement 精调
MARFT: Multi-Agent Reinforcement Fine-Tuning
作者: Junwei Liao, Muning Wen, Jun Wang, Weinan Zhang
发布日期: 4/24/2025
arXiv ID: oai:arXiv.org:2504.16129v1

摘要

arXiv:2504.16129v1 交叉公告类型 摘要:基于LLM的多智能体系统在解决需要多方面推理和协作的复杂、代理性任务方面展示了显著的能力,从生成高质量的演示文稿到进行复杂的科学研究。与此同时,强化学习因其在增强智能代理方面的有效性而广受认可,但对使用基础RL技术微调LaMAS的研究有限。此外,直接将MARL方法应用于LaMAS引入了重大挑战,这些挑战源自LaMAS固有的特性和机制。为了解决这些问题,本文对基于LLM的MARL进行了全面研究,并提出了一种新颖的范式,称为多智能体强化微调(MARFT)。我们介绍了一种通用的算法框架,专门针对LaMAS,概述了概念基础、关键区别和实用实现策略。首先,我们回顾了从RL到强化微调的发展,为多智能体领域中的并行分析奠定了基础。在LaMAS的背景下,我们阐明了MARL和MARFT之间的重要区别。这些区别促使我们转向一种新颖的、以LaMAS为导向的RFT形式。本文的核心在于展示了一个稳健且可扩展的MARFT框架。我们详细阐述了核心算法,并提供了完整的开源实现,以促进采用和进一步的研究。论文的后部分探讨了MARFT在实际应用中的视角和开放挑战。通过将理论基础与实用方法相结合,本文旨在为寻求推进MARFT以实现稳健和自适应代理系统解决方案的研究人员提供路线图。我们提出的框架的实现可在以下网址获取:https://github.com/jwliao-ai/MARFT。