摘要
arXiv:2503.16248v2 宣布类型: 替换交叉
摘要:将AI代理与Web3生态系统结合利用了它们在自主性和开放性方面的互补潜力,但也引入了未充分探索的安全风险,因为这些代理会动态地与金融协议和不可变的智能合约进行交互。本文探讨了在实际场景中暴露于敌对威胁时,AI代理在基于区块链的金融生态系统中的漏洞。我们引入了上下文操控的概念,这是一种全面的攻击向量,利用未受保护的上下文表面,包括输入通道、内存模块和外部数据源。
通过对手肘OS的实证分析,这是一种用于自动化Web3操作的去中心化AI代理框架,我们展示了敌对者如何通过向提示或历史交互记录中注入恶意指令来操控上下文,从而导致未预见的资产转移和协议违反,这些都可能是财务灾难性的。
为了量化这些漏洞,我们设计了CrAIBench,这是一种针对Web3领域的基准测试,它评估了AI代理在150多个现实区块链任务中的健壮性,包括代币转移、交易、桥梁和跨链交互,以及使用上下文操控的500多个攻击测试案例。我们系统地评估了攻击和防御策略,分析了诸如安全提示的影响、推理模型和对齐技术有效性的因素。
我们的研究结果表明,在敌对者篡改存储的上下文时,基于提示的防御措施是不够的,即使有这些防御措施,攻击成功率仍然很高。基于微调的防御措施则提供了更 robust 的替代方案,可以显著降低攻击成功率,同时保持单步骤任务的实用性。这项研究突显了开发既安全又负责任的AI代理的紧迫需求。