LLM2D

摘要

arXiv:2502.12411v1 安全公告类型: cross 摘要：不安全的提示对大型语言模型（LLMs）构成了显著的安全风险。现有的不安全提示检测方法依赖于数据驱动的微调来训练防护模型，这需要大量的数据和计算资源。相比之下，最近出现了一些基于少量示例的梯度方法，只需少量的安全和不安全的参考提示即可。基于梯度的方法通过分析大型语言模型中安全关键参数的梯度的一致模式来识别不安全的提示。尽管有效，但其方向相似性（余弦相似性）的限制引入了“方向偏见”，限制了其识别不安全提示的能力。为克服这一限制，我们引入了GradCoo，这是一种新颖的梯度共现分析方法，将安全关键参数的识别范围扩展到包括未带符号的梯度相似性，从而减少了“方向偏见”的影响，提高了不安全提示检测的准确性。在广泛使用的基准数据集ToxicChat和XStest上的综合实验显示，我们提出的方法在与现有方法的性能上达到了最先进的（SOTA）水平。此外，我们在各种大小和来源的大型语言模型基模型中确认了GradCoo检测不安全提示的一般性。