摘要
arXiv:2502.11090v1 安全类型:交叉
摘要:随着大型语言模型(LLMs)的迅速发展,LLMs的安全性已经成为一项至关重要的关切,亟需精确评估。当前的基准主要集中在单一回合对话或单一脱壳攻击方法上进行安全性评估。此外,这些基准并未详细考虑LLM识别和处理不安全信息的能力。为了解决这些问题,我们提出了一种细粒度基准SafeDialBench,用于评估LLMs在多回合对话中面对各种脱壳攻击的安全性。具体而言,我们设计了一种两层层次的安全分类体系,考虑了6个安全维度,并生成了超过4000个中英文双语多回合对话,涵盖了22种对话场景。我们采用了参考攻击和目的反转等7种脱壳攻击策略,以提高对话生成数据集的质量。值得一提的是,我们构建了一个创新的评估框架,评估模型在检测和处理不安全信息以及面对脱壳攻击时保持一致性的能力。针对17个LLMs的实验结果显示,Yi-34B-Chat和GLM4-9B-Chat表现出优越的安全性能,而Llama3.1-8B-Instruct和o3-mini则显示出安全漏洞。