LLM2D

摘要

arXiv:2402.07510v4 公告类型：替换摘要：大型语言模型（LLMs）能力的 recent 增强为一组通信生成性 AI 代理解决联合任务的应用打开了新局面。这提出了隐私和安全方面的挑战，涉及未经授权的信息共享或其他形式的智能体协调。现代隐写技术可能使这些动态难以检测。在本文中，我们借鉴了人工智能和安全文献中的相关概念，全面形式化生成性 AI 代理系统中的秘密合谋问题。我们研究了使用隐写技术的激励措施，并提出了多种缓解措施。我们的调查结果产生了一个模型评估框架，系统地测试了各种形式的秘密合谋所需的各项能力。我们提供了涵盖当前各种当代 LLM 的大量实验证据。虽然当前模型的隐写技术能力仍然有限，但 GPT-4 展示出了技术跃升，提示需要持续监控前沿模型的隐写技术能力。最后，我们提出了一个全面的研究计划，以缓解生成性 AI 模型之间未来合谋的风险。