摘要
arXiv:2502.11137v1 安全类型: 横向
摘要: 近期,DeepSeek 系列模型凭借其卓越的推理能力和开源策略,正在重新塑造全球人工智能格局。尽管这些优势明显,但它们在安全性方面存在显著不足。罗博特智能公司的研究,该公司是思科的子公司,并且与宾夕法尼亚大学合作,发现当 DeepSeek-R1 处理有害提示时,其攻击成功率达到了 100%。此外,多家安全公司和研究机构也确认了该模型中的关键安全性漏洞。鉴于 DeepSeek 模型在中文和英文环境中的稳健表现,对其两种语言环境中的安全性也需要同等关键的安全评估。然而,当前的研究大多集中在英文环境中的安全性评估,这在全面评估它们在中文环境中的安全性性能方面留下了空白。针对这一空白,本研究引入了 CHiSafetyBench,这是一个针对中文环境的安全性评估基准。该基准系统地评估了 DeepSeek-R1 和 DeepSeek-V3 在中文环境中的安全性,揭示了它们在安全类别中的表现。实验结果量化了这两种模型在中文环境中的不足之处,为后续改进提供了关键洞察。