摘要
arXiv:2505.02077v1 宣布类型:交叉学科
摘要:去中心化的AI代理很快将在互联网平台上相互交互,这将带来传统网络安全和AI安全框架之外的新安全挑战。开放形式的协议对于AI任务泛化至关重要,但也会引发新的威胁,如秘密共谋和有组织的蜂群攻击。网络效应可以迅速传播隐私违规、错误信息、脱牢房攻击和数据污染,而多代理分散和隐蔽优化有助于对手逃避监督,从而在系统层面创造新的持久威胁。尽管这些安全挑战至关重要,但它们的研究仍被分散在包括AI安全、多代理学习、复杂系统、网络安全、博弈论、分布式系统和技术AI治理等不同的领域中。我们提出**多代理安全**,这是一个新的领域,专注于保护去中心化的AI代理网络免受通过其相互作用(无论是直接还是间接通过共享环境)而出现或放大的威胁,并并描述了基本的安全性能权衡。我们的初步工作(1)对交互AI代理引发的威胁景观进行了分类,(2)概述了去中心化AI系统中的安全性能权衡,并(3)提出了一项统一的研究议程,以解决设计安全代理系统和交互环境中的开放挑战。通过识别这些缺口,我们旨在指导在这个关键领域的研究,以解锁大规模代理在互联网上的部署带来的经济社会潜力,培养公众信任,并在关键基础设施和国防背景下减轻国家安全风险。