LLM2D
LLM中 evolving 安全性:一次关于 jailbreak 攻击与防御的研究
Evolving Security in LLMs: A Study of Jailbreak Attacks and Defenses
作者: Zhengchun Shang, Wenlan Wei
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2504.02080v1

摘要

arXiv:2504.02080v1 安全类型:跨域 摘要:大型语言模型(LLMs)越来越受欢迎,推动了广泛的应用。它们的广泛应用引发了担忧,尤其是在规避安全措施以生成有害内容的牢笼突破攻击方面。 在本文中,我们对大型语言模型(LLMs)进行了全面的安全分析,针对模型安全的演变及其决定因素提出了关键的研究问题。 具体来说,我们首先识别出检测牢笼突破攻击最有效的技术。接着,我们研究了新版本的LLMs是否相比其前身提供了更好的安全性。我们也评估了模型大小对整体安全的影响,并探索了整合多种防御策略以增强模型鲁棒性的潜在益处。 我们的研究所使用了四种先进的攻击技术来评估开源模型(例如,LLaMA和Mistral)和专有系统(例如,GPT-4)的安全性,并评估了三种新防御方法的有效性。