LLM2D

摘要

arXiv:2504.15257v1 宣告类型: 新增摘要: 本论文提出了一种名为 FlowReasoner 的查询级元代理，用于自动化查询级多代理系统的设计，即每个用户查询一个系统。我们的核心思路是通过外部执行反馈来激励基于推理的元代理。具体来说，通过精炼 DeepSeek R1，我们首先赋予 FlowReasoner 关于多代理系统生成的基本推理能力。然后，我们通过带有外部执行反馈的强化学习 (RL) 进一步增强其能力。设计了一种多功能奖励，从性能、复杂性和效率方面指导 RL 训练。通过这种方式，FlowReasoner 能够通过深思熟虑的推理为每个用户查询生成个性化多代理系统。在工程和竞赛代码基准上的实验表明，FlowReasoner 的优越性。值得注意的是，在三个基准测试中，它在准确率上超越了 o1-mini 10.52%。代码可在 https://github.com/sail-sg/FlowReasoner 获取。