摘要
arXiv:2502.00757v1 类别:交叉学科
摘要: 将大型语言模型(LLMs)嵌入到多agent系统中通常可以提高复杂任务的性能,但这种框架的安全影响尚未得到充分探索。在本文中,我们介绍了AGENTBREEDER,这是一种多目标进化搜索框架。我们的REDAGENTBREEDER朝着破解基LLM的方向进化结构,同时实现高任务成功率,而BLUEAGENTBREEDER则旨在结合安全性和任务奖励。我们使用广泛认可的推理、数学和安全性基准测试由不同实例的AGENTBREEDER发现的系统和流行的基础线方法。我们的工作强调并减轻了多agent架构带来的安全风险。