LLM2D

摘要

arXiv:2502.11137v2 安全类型: 替换交叉摘要：近日，DeepSeek 系列模型凭借其卓越的推理能力和开源策略，正在重塑全球人工智能领域。尽管这些模型具有诸多优势，但也显示出显著的安全性缺陷。Robust Intelligence 有限公司（Cisco 的子公司）与宾夕法尼亚大学合作进行的研究显示，当处理有害提示时，DeepSeek-R1 的攻击成功率达到了 100%。此外，多家安全公司和研究机构已经确认了该模型中的关键安全漏洞。作为在中文和英文环境中均表现出强大性能的模型，DeepSeek 模型在两种语言环境中均需要进行同等重要的安全性评估。然而，当前的研究主要集中在英文环境中的安全性评估，导致在中文环境中的全面安全性评估存在空白。为弥补这一空白，本研究推出了 CHiSafetyBench，这是一个专门针对中文环境的安全评估基准。该基准系统地评估了 DeepSeek-R1 和 DeepSeek-V3 在中文环境中的安全性，揭示了它们在不同安全类别中的表现。实验结果量化了这两种模型在中文环境中的缺陷，为后续改进提供了关键见解。应当注意的是，尽管我们努力建立一个全面、客观和权威的评估基准，但在测试样本选择、数据分布特性和评估标准设定等方面，不可避免地会引入一定程度的偏差。我们将不断优化评估基准，并定期更新此报告，以提供更加全面和准确的评估结果。请参阅最新版本的论文获取最新的评估结果和结论。