摘要
arXiv:2502.00757v2 宣告类型: replace-cross
摘要:将大型语言模型(LLMs)编织进多代理系统通常能够提高复杂任务的表现,但这种编织的安全影响尚未得到充分探索。我们引入了AgentBreeder框架,这是一个用于多目标自我改进进化搜索的框架。我们评估了在广泛认可的推理、数学和安全基准上发现的编织,并将它们与流行的基线进行比较。在“蓝色”模式下,我们观察到在安全基准性能上平均提升了79.4%,同时保持或提高了能力分数。在“红色”模式下,我们发现伴随能力优化出现了一些对抗性较弱的编织。我们的工作证明了多代理编织的风险,并提供了一个缓解这些风险的框架。代码可在https://github.com/J-Rosser-UK/AgentBreeder获取。