LLM2D
攻击图谱:红队视角下的生成式 AI 挑战与陷阱
Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2409.15398v1

摘要

随着生成式 AI,特别是大型语言模型 (LLM) 越来越广泛地应用于生产环境,新的攻击面和漏洞随之出现,并将重点放在自然语言和多模态系统中的对抗性威胁上。红队攻击在主动识别这些系统中的弱点方面变得越来越重要,而蓝队攻击则致力于防御此类对抗性攻击。尽管学术界对生成式 AI 的对抗性风险越来越感兴趣,但针对实践者在现实环境中评估和缓解这些挑战的指导却很少。为了解决这个问题,我们的贡献包括:(1)对保护生成式 AI 的红队和蓝队策略进行实际检验;(2)确定防御开发和评估中的关键挑战和开放性问题;(3)攻击图谱,一个直观的框架,它为分析单回合输入攻击提供了一种实用方法,使其成为实践者的首选。这项工作旨在弥合学术见解与保护生成式 AI 系统的实际安全措施之间的差距。