摘要
arXiv:2502.14143v1 宣布类型:交叉
摘要:先进AI代理的快速发展以及这些代理实例即将的部署将催生前所未有的复杂多代理系统。这些系统提出了新的且尚未充分探索的风险。在本报告中,我们通过识别基于代理激励的三种关键故障模式(误协调、冲突和共谋)以及可能支撑这些模式的七个关键风险因素(信息不对称、网络效应、选择压力、不稳定的动态、承诺问题、新兴代理和多代理安全),提供了一种结构化的分类方法。我们强调了每种风险的几个重要实例,以及有望减轻这些风险的方向。通过将我们的分析扎根于一系列现实世界示例和实验证据,我们阐述了多代理系统所带来独特挑战及其对先进AI的安全性、治理和伦理的影响。