LLM2D

摘要

arXiv:2504.02080v1 安全类型：跨域摘要：大型语言模型（LLMs）越来越受欢迎，推动了广泛的应用。它们的广泛应用引发了担忧，尤其是在规避安全措施以生成有害内容的牢笼突破攻击方面。在本文中，我们对大型语言模型（LLMs）进行了全面的安全分析，针对模型安全的演变及其决定因素提出了关键的研究问题。具体来说，我们首先识别出检测牢笼突破攻击最有效的技术。接着，我们研究了新版本的LLMs是否相比其前身提供了更好的安全性。我们也评估了模型大小对整体安全的影响，并探索了整合多种防御策略以增强模型鲁棒性的潜在益处。我们的研究所使用了四种先进的攻击技术来评估开源模型（例如，LLaMA和Mistral）和专有系统（例如，GPT-4）的安全性，并评估了三种新防御方法的有效性。