摘要
红队评估旨在评估大型语言模型 (LLM) 如何生成违反其安全训练期间设定的规范、政策和规则的内容。然而,文献中大多数现有的自动化方法并不代表人类与 AI 模型交互的方式。AI 模型的普通用户可能没有对抗性机器学习方法的先进知识或访问模型内部,并且他们不会花很多时间来精心制作一个高度有效的对抗性提示。相反,他们更有可能利用在线共享的常见技术,并利用 LLM 的多轮对话性质。虽然手动测试解决了这一差距,但这是一个低效且通常昂贵的过程。为了解决这些限制,我们引入了生成式攻击性代理测试器 (GOAT),这是一个自动代理红队系统,它模拟普通语言对抗性对话,同时利用多种对抗性提示技术来识别 LLM 中的漏洞。我们通过以一种鼓励推理通过可用方法的选择、当前目标模型的响应和下一步的方式提示通用模型,用 7 种红队攻击实例化 GOAT。我们的方法旨在可扩展且高效,允许人类测试人员专注于探索新的风险领域,而自动化则涵盖已知风险领域的规模化对抗性压力测试。我们介绍了 GOAT 的设计和评估,证明了其在识别最先进 LLM 中漏洞方面的有效性,在 JailbreakBench 数据集上,Llama 3.1 的 ASR@10 为 97%,GPT-4 为 88%。