摘要
arXiv:2502.11137v3 安全公告类型: replace-cross
摘要:近期,借助其卓越的推理能力和开源策略,DeepSeek 系列模型正在重塑全球 AI 地图。尽管这些优势明显,但它们在安全性方面也表现出显著的不足。Robust Intelligence(思科的子公司)与宾夕法尼亚大学合作进行的研究揭示,当处理有害提示时,DeepSeek-R1 的攻击成功率高达 100%。此外,多家安全公司和研究机构已确认了该模型中存在的关键安全漏洞。作为在中文和英语中均表现出稳健性能的模型,DeepSeek 模型需要在两种语言环境中进行同等关键的安全评估。然而,当前的研究主要集中于英语环境中的安全性评估,而对中文环境中的安全性能进行全面评估则存在空白。为应对这一空白,本研究引入了 CHiSafetyBench,这是一种专门针对中文的安全评估基准。该基准系统地评估了 DeepSeek-R1 和 DeepSeek-V3 在中文环境中的安全性,揭示了它们在各个安全类别的性能。实验结果量化了这两个模型在中文环境中的不足之处,为后续改进提供了重要见解。值得注意的是,尽管我们已尽力建立一个全面、客观和权威的评估基准,但在测试样本的选择、数据分布的特征以及评估标准的设定中,不可避免地会引入一定程度的偏差。我们将不断优化评估基准,并定期更新本报告,以提供更全面和准确的评估结果。请参考论文的最新版本获取最新的评估结果和结论。