摘要
arXiv:2504.08104v1 攻击类型: 横向
摘要:旨在使大型语言模型(LLM)执行不受限制行为的监狱突破攻击已成为人工智能安全领域的一个关键且具有挑战性的方向。尽管使用基于字典的评估已经实现了令人鼓舞的攻击成功率,但现有的监狱突破攻击方法无法输出详细的攻击内容以满足有害请求,导致在基于GPT的评估中表现不佳。为了解决这一问题,我们提出了一种名为GeneShift的黑盒监狱突破攻击,通过使用遗传算法优化场景转换。首先,我们观察到恶意查询在不同的场景转换下表现最优。基于此,我们开发了一个遗传算法来进化和选择场景转换的混合体。它引导我们的方法产生详细的、可执行的有害响应,同时保持看似无害的表象,从而提高隐秘性。广泛的实验表明,GeneShift表现优越。值得注意的是,当直接提示失败时,GeneShift将监狱突破成功率从0%提高到了60%。