LLM2D
AgentBreeder:通过自我改进缓解多智能体支架对AI安全的影响
AgentBreeder: Mitigating the AI Safety Impact of Multi-Agent Scaffolds via Self-Improvement
作者: J Rosser, Jakob Nicolaus Foerster
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2502.00757v2

摘要

arXiv:2502.00757v2 宣告类型: replace-cross 摘要:将大型语言模型(LLMs)编织进多代理系统通常能够提高复杂任务的表现,但这种编织的安全影响尚未得到充分探索。我们引入了AgentBreeder框架,这是一个用于多目标自我改进进化搜索的框架。我们评估了在广泛认可的推理、数学和安全基准上发现的编织,并将它们与流行的基线进行比较。在“蓝色”模式下,我们观察到在安全基准性能上平均提升了79.4%,同时保持或提高了能力分数。在“红色”模式下,我们发现伴随能力优化出现了一些对抗性较弱的编织。我们的工作证明了多代理编织的风险,并提供了一个缓解这些风险的框架。代码可在https://github.com/J-Rosser-UK/AgentBreeder获取。