LLM2D
在中国语境下深度搜索模型的安全评估
Safety Evaluation of DeepSeek Models in Chinese Contexts
作者: Wenjing Zhang, Xuejiao Lei, Zhaoxiang Liu, Ning Wang, Zhenhong Long, Peijun Yang, Jiaojiao Zhao, Minjie Hua, Chaoyang Ma, Kai Wang, Shiguo Lian
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.11137v2

摘要

arXiv:2502.11137v2 安全类型: 替换交叉 摘要:近日,DeepSeek 系列模型凭借其卓越的推理能力和开源策略,正在重塑全球人工智能领域。尽管这些模型具有诸多优势,但也显示出显著的安全性缺陷。Robust Intelligence 有限公司(Cisco 的子公司)与宾夕法尼亚大学合作进行的研究显示,当处理有害提示时,DeepSeek-R1 的攻击成功率达到了 100%。此外,多家安全公司和研究机构已经确认了该模型中的关键安全漏洞。作为在中文和英文环境中均表现出强大性能的模型,DeepSeek 模型在两种语言环境中均需要进行同等重要的安全性评估。然而,当前的研究主要集中在英文环境中的安全性评估,导致在中文环境中的全面安全性评估存在空白。为弥补这一空白,本研究推出了 CHiSafetyBench,这是一个专门针对中文环境的安全评估基准。该基准系统地评估了 DeepSeek-R1 和 DeepSeek-V3 在中文环境中的安全性,揭示了它们在不同安全类别中的表现。实验结果量化了这两种模型在中文环境中的缺陷,为后续改进提供了关键见解。应当注意的是,尽管我们努力建立一个全面、客观和权威的评估基准,但在测试样本选择、数据分布特性和评估标准设定等方面,不可避免地会引入一定程度的偏差。我们将不断优化评估基准,并定期更新此报告,以提供更加全面和准确的评估结果。请参阅最新版本的论文获取最新的评估结果和结论。