摘要
arXiv:2402.07510v4
公告类型:替换
摘要:大型语言模型(LLMs)能力的 recent 增强为一组通信生成性 AI 代理解决联合任务的应用打开了新局面。这提出了隐私和安全方面的挑战,涉及未经授权的信息共享或其他形式的智能体协调。现代隐写技术可能使这些动态难以检测。在本文中,我们借鉴了人工智能和安全文献中的相关概念,全面形式化生成性 AI 代理系统中的秘密合谋问题。我们研究了使用隐写技术的激励措施,并提出了多种缓解措施。我们的调查结果产生了一个模型评估框架,系统地测试了各种形式的秘密合谋所需的各项能力。我们提供了涵盖当前各种当代 LLM 的大量实验证据。虽然当前模型的隐写技术能力仍然有限,但 GPT-4 展示出了技术跃升,提示需要持续监控前沿模型的隐写技术能力。最后,我们提出了一个全面的研究计划,以缓解生成性 AI 模型之间未来合谋的风险。