LLM2D
SafeDialBench:多轮对话中面对多样 Jailbreak 攻击的大语言模型细粒度安全基准
SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks
作者: Hongye Cao, Yanming Wang, Sijia Jing, Ziyue Peng, Zhixin Bai, Zhe Cao, Meng Fang, Fan Feng, Boyan Wang, Jiaheng Liu, Tianpei Yang, Jing Huo, Yang Gao, Fanyu Meng, Xi Yang, Chao Deng, Junlan Feng
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11090v2

摘要

arXiv:2502.11090v2 安全类型:跨领域 摘要:随着大型语言模型(LLMs)的迅速发展,LLMs的安全性已成为一个亟待精准评估的关键问题。当前的基准测试主要集中在单轮对话或单一脱缰攻击方法来评估安全性。此外,这些基准测试未详细考虑LLM识别和处理不安全信息的能力。为解决这些问题,我们提出了一种细粒度基准测试SafeDialBench,用于评估LLMs在多轮对话中面对各种脱缰攻击时的安全性。具体而言,我们设计了一种两层的分层安全分类体系,考虑了6个安全维度,并在22种对话场景下生成了超过4000个多轮对话,语言包括中文和英文。我们采用了包括引用攻击和目的反转在内的7种脱缰攻击策略,以提高对话生成数据集的质量。值得注意的是,我们构建了一种创新的LLM评估框架,该框架衡量了检测和处理不安全信息的能力以及在面对脱缰攻击时维持一致性的能力。在17个LLM的实验结果中显示,Yi-34B-Chat和GLM4-9B-Chat表现出优越的安全性能,而Llama3.1-8B-Instruct和o3-mini则显示出安全隐患。