LLM2D
生成型AI代理之间的秘密共谋:基于隐写术的多代理欺骗
Secret Collusion among Generative AI Agents: Multi-Agent Deception via Steganography
作者: Sumeet Ramesh Motwani, Mikhail Baranchuk, Martin Strohmeier, Vijay Bolina, Philip H. S. Torr, Lewis Hammond, Christian Schroeder de Witt
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2402.07510v4

摘要

arXiv:2402.07510v4 公告类型:替换 摘要:大型语言模型(LLMs)能力的 recent 增强为一组通信生成性 AI 代理解决联合任务的应用打开了新局面。这提出了隐私和安全方面的挑战,涉及未经授权的信息共享或其他形式的智能体协调。现代隐写技术可能使这些动态难以检测。在本文中,我们借鉴了人工智能和安全文献中的相关概念,全面形式化生成性 AI 代理系统中的秘密合谋问题。我们研究了使用隐写技术的激励措施,并提出了多种缓解措施。我们的调查结果产生了一个模型评估框架,系统地测试了各种形式的秘密合谋所需的各项能力。我们提供了涵盖当前各种当代 LLM 的大量实验证据。虽然当前模型的隐写技术能力仍然有限,但 GPT-4 展示出了技术跃升,提示需要持续监控前沿模型的隐写技术能力。最后,我们提出了一个全面的研究计划,以缓解生成性 AI 模型之间未来合谋的风险。