LLM2D
宪法分类器:防御跨越数千小时红队测试的通用突破
Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming
作者: Mrinank Sharma, Meg Tong, Jesse Mu, Jerry Wei, Jorrit Kruthoff, Scott Goodfriend, Euan Ong, Alwin Peng, Raj Agarwal, Cem Anil, Amanda Askell, Nathan Bailey, Joe Benton, Emma Bluemke, Samuel R. Bowman, Eric Christiansen, Hoagy Cunningham, Andy Dau, Anjali Gopal, Rob Gilson, Logan Graham, Logan Howard, Nimit Kalra, Taesung Lee, Kevin Lin, Peter Lofgren, Francesco Mosconi, Clare O'Hara, Catherine Olsson, Linda Petrini, Samir Rajani, Nikhil Saxena, Alex Silverstein, Tanya Singh, Theodore Sumers, Leonard Tang, Kevin K. Troy, Constantin Weisser, Ruiqi Zhong, Giulio Zhou, Jan Leike, Jared Kaplan, Ethan Perez
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2501.18837v1

摘要

arXiv:2501.18837v1 类型: 交叉 摘要: 大型语言模型(LLMs)容易受到通用突破攻击——即能够系统地规避模型保护措施并使用户能够执行需要多次模型交互的有害过程的提示策略,例如大规模制造非法物质。为了防御这些攻击,我们提出了宪法分类器:这些分类器是基于生成的合成数据训练的,这些数据是通过提示LLMs使用自然语言规则(即,宪法)生成的,这些规则规定了允许和禁止的内容。在超过3000个小时的红队测试中,没有红队成员能够找到一种通用突破攻击,能够在大多数目标查询中以与未保护模型相似的详细程度从早期分类器保护的LLM中提取信息。在自动化评估中,增强的分类器展示了对保留域特定突破的强大防御能力。这些分类器还保持了部署可行性,增加了0.38%的实际流量拒绝率,并增加了23.7%的推理开销。我们的工作证明,在保持实际部署可行性的同时防御通用突破是可行的。