LLM2D

摘要

随着生成式 AI，特别是大型语言模型 (LLM) 越来越广泛地应用于生产环境，新的攻击面和漏洞随之出现，并将重点放在自然语言和多模态系统中的对抗性威胁上。红队攻击在主动识别这些系统中的弱点方面变得越来越重要，而蓝队攻击则致力于防御此类对抗性攻击。尽管学术界对生成式 AI 的对抗性风险越来越感兴趣，但针对实践者在现实环境中评估和缓解这些挑战的指导却很少。为了解决这个问题，我们的贡献包括：（1）对保护生成式 AI 的红队和蓝队策略进行实际检验；（2）确定防御开发和评估中的关键挑战和开放性问题；（3）攻击图谱，一个直观的框架，它为分析单回合输入攻击提供了一种实用方法，使其成为实践者的首选。这项工作旨在弥合学术见解与保护生成式 AI 系统的实际安全措施之间的差距。