摘要
arXiv:2504.02080v1 安全类型:跨域
摘要:大型语言模型(LLMs)越来越受欢迎,推动了广泛的应用。它们的广泛应用引发了担忧,尤其是在规避安全措施以生成有害内容的牢笼突破攻击方面。
在本文中,我们对大型语言模型(LLMs)进行了全面的安全分析,针对模型安全的演变及其决定因素提出了关键的研究问题。
具体来说,我们首先识别出检测牢笼突破攻击最有效的技术。接着,我们研究了新版本的LLMs是否相比其前身提供了更好的安全性。我们也评估了模型大小对整体安全的影响,并探索了整合多种防御策略以增强模型鲁棒性的潜在益处。
我们的研究所使用了四种先进的攻击技术来评估开源模型(例如,LLaMA和Mistral)和专有系统(例如,GPT-4)的安全性,并评估了三种新防御方法的有效性。