摘要
arXiv:2504.13203v1 Announce Type: cross
摘要:多轮与语言模型(LMs)的互动带来了关键的安全风险,因为有害意图可以战略性地分布在多个交流中传播。然而,大多数先前的工作主要集中在单轮安全上,而适应性和多样性仍然是多轮红队挑战中的关键问题。为了解决这些挑战,我们提出了X-Teaming,这是一个可扩展的框架,系统地探索看似无害的互动如何升级为有害的结果,并生成相应的攻击场景。X-Teaming 使用协作型代理进行规划、攻击优化和验证,在多个代表性领先开源和闭源模型中实现了最先进的多轮脱逃成功率和多样性,成功率高达98.1%。特别地,X-Teaming 在最新版本的Claude 3.7 Sonnet模型上实现了96.2%的攻击成功率,而该模型被认为几乎对单轮攻击具有免疫力。基于X-Teaming,我们引入了XGuard-Train,这是一个开源的多轮安全训练数据集,比之前的最佳资源大20倍,包含3万个交互脱逃场景,旨在使语言模型实现稳健的多轮安全对齐。我们的工作提供了用于缓解复杂对话攻击的必要工具和见解,推进了语言模型的多轮安全性。