LLM2D

摘要

arXiv:2502.11137v3 安全公告类型: replace-cross 摘要：近期，借助其卓越的推理能力和开源策略，DeepSeek 系列模型正在重塑全球 AI 地图。尽管这些优势明显，但它们在安全性方面也表现出显著的不足。Robust Intelligence（思科的子公司）与宾夕法尼亚大学合作进行的研究揭示，当处理有害提示时，DeepSeek-R1 的攻击成功率高达 100%。此外，多家安全公司和研究机构已确认了该模型中存在的关键安全漏洞。作为在中文和英语中均表现出稳健性能的模型，DeepSeek 模型需要在两种语言环境中进行同等关键的安全评估。然而，当前的研究主要集中于英语环境中的安全性评估，而对中文环境中的安全性能进行全面评估则存在空白。为应对这一空白，本研究引入了 CHiSafetyBench，这是一种专门针对中文的安全评估基准。该基准系统地评估了 DeepSeek-R1 和 DeepSeek-V3 在中文环境中的安全性，揭示了它们在各个安全类别的性能。实验结果量化了这两个模型在中文环境中的不足之处，为后续改进提供了重要见解。值得注意的是，尽管我们已尽力建立一个全面、客观和权威的评估基准，但在测试样本的选择、数据分布的特征以及评估标准的设定中，不可避免地会引入一定程度的偏差。我们将不断优化评估基准，并定期更新本报告，以提供更全面和准确的评估结果。请参考论文的最新版本获取最新的评估结果和结论。