摘要
arXiv:2501.18837v1 类型: 交叉
摘要: 大型语言模型(LLMs)容易受到通用突破攻击——即能够系统地规避模型保护措施并使用户能够执行需要多次模型交互的有害过程的提示策略,例如大规模制造非法物质。为了防御这些攻击,我们提出了宪法分类器:这些分类器是基于生成的合成数据训练的,这些数据是通过提示LLMs使用自然语言规则(即,宪法)生成的,这些规则规定了允许和禁止的内容。在超过3000个小时的红队测试中,没有红队成员能够找到一种通用突破攻击,能够在大多数目标查询中以与未保护模型相似的详细程度从早期分类器保护的LLM中提取信息。在自动化评估中,增强的分类器展示了对保留域特定突破的强大防御能力。这些分类器还保持了部署可行性,增加了0.38%的实际流量拒绝率,并增加了23.7%的推理开销。我们的工作证明,在保持实际部署可行性的同时防御通用突破是可行的。