摘要
arXiv:2501.18438v2 宣传类型: 替换交叉
摘要:DeepSeek-R1 的出现标志着人工智能行业乃至大型语言模型领域的转折点。其能力在多个任务中表现出色,包括创造性思维、代码生成、数学和自动化程序修复,且执行成本似乎较低。然而,大型语言模型必须遵守一个重要的定性属性,即其与安全性和人类价值观的对齐。DeepSeek-R1 的主要竞争对手是其美国竞争对手 OpenAI 的 o3-mini 模型,该模型预计在性能、安全性和成本方面设定高标准。在本技术报告中,我们系统地评估了 DeepSeek-R1(70b 版本)和 OpenAI 的 o3-mini(测试版)的安全级别。为此,我们利用了我们最近发布的自动化安全性测试工具 ASTRAL。通过利用该工具,我们自动且系统地为两个模型生成并执行了 1,260 个测试输入。在对两个 LLM 提供的结果进行半自动化评估后,结果显示 DeepSeek-R1 产生的不安全响应显著多于 OpenAI 的 o3-mini(分别为 12% 和 1.2%)。