LLM2D
FlowReasoner:强化查询级元代理
FlowReasoner: Reinforcing Query-Level Meta-Agents
作者: Hongcheng Gao, Yue Liu, Yufei He, Longxu Dou, Chao Du, Zhijie Deng, Bryan Hooi, Min Lin, Tianyu Pang
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.15257v1

摘要

arXiv:2504.15257v1 宣告类型: 新增 摘要: 本论文提出了一种名为 FlowReasoner 的查询级元代理,用于自动化查询级多代理系统的设计,即每个用户查询一个系统。我们的核心思路是通过外部执行反馈来激励基于推理的元代理。具体来说,通过精炼 DeepSeek R1,我们首先赋予 FlowReasoner 关于多代理系统生成的基本推理能力。然后,我们通过带有外部执行反馈的强化学习 (RL) 进一步增强其能力。设计了一种多功能奖励,从性能、复杂性和效率方面指导 RL 训练。通过这种方式,FlowReasoner 能够通过深思熟虑的推理为每个用户查询生成个性化多代理系统。在工程和竞赛代码基准上的实验表明,FlowReasoner 的优越性。值得注意的是,在三个基准测试中,它在准确率上超越了 o1-mini 10.52%。代码可在 https://github.com/sail-sg/FlowReasoner 获取。