摘要
arXiv:2504.01278v1 安全类型: 新
摘要: 大型语言模型(LLMs)被用于恶意目的将随着这些模型变得越来越强大和普及而带来重大的安全风险。虽然现有的红队框架大多侧重于单轮攻击,但现实世界的对手通常在多轮场景中运作,通过迭代地探测漏洞并在威胁模型响应的基础上调整提示。在本文中,我们提出了\AlgName,这是一种新颖的多轮红队代理,通过互补的学习维度来模拟复杂的真人攻击者:全局技巧层面的学习,随着时间的推移积累知识并将其泛化到新的攻击目标,和局部提示层面的学习,在初次尝试失败时细化针对特定目标的具体实现。与以往依赖固定策略集的多轮方法不同,\AlgName 允许代理识别新的脱困策略,开发基于目标的技巧选择框架,并针对选择的技巧细化提示公式。在 JailbreakBench 上的实际评估表明,我们的框架在性能上更优,实现对 GPT-3.5-Turbo 和 Llama-3.1-70B 在 5 轮对话内的攻击成功率超过 90%,超越了现有的最先进的基准。这些结果表明,在现实的多轮场景中,动态学习在识别和利用模型漏洞方面的有效性。