LLM2D

摘要

arXiv:2502.11137v1 安全类型: 横向摘要: 近期，DeepSeek 系列模型凭借其卓越的推理能力和开源策略，正在重新塑造全球人工智能格局。尽管这些优势明显，但它们在安全性方面存在显著不足。罗博特智能公司的研究，该公司是思科的子公司，并且与宾夕法尼亚大学合作，发现当 DeepSeek-R1 处理有害提示时，其攻击成功率达到了 100%。此外，多家安全公司和研究机构也确认了该模型中的关键安全性漏洞。鉴于 DeepSeek 模型在中文和英文环境中的稳健表现，对其两种语言环境中的安全性也需要同等关键的安全评估。然而，当前的研究大多集中在英文环境中的安全性评估，这在全面评估它们在中文环境中的安全性性能方面留下了空白。针对这一空白，本研究引入了 CHiSafetyBench，这是一个针对中文环境的安全性评估基准。该基准系统地评估了 DeepSeek-R1 和 DeepSeek-V3 在中文环境中的安全性，揭示了它们在安全类别中的表现。实验结果量化了这两种模型在中文环境中的不足之处，为后续改进提供了关键洞察。