LLM2D

摘要

arXiv:2501.18438v2 宣传类型: 替换交叉摘要：DeepSeek-R1 的出现标志着人工智能行业乃至大型语言模型领域的转折点。其能力在多个任务中表现出色，包括创造性思维、代码生成、数学和自动化程序修复，且执行成本似乎较低。然而，大型语言模型必须遵守一个重要的定性属性，即其与安全性和人类价值观的对齐。DeepSeek-R1 的主要竞争对手是其美国竞争对手 OpenAI 的 o3-mini 模型，该模型预计在性能、安全性和成本方面设定高标准。在本技术报告中，我们系统地评估了 DeepSeek-R1（70b 版本）和 OpenAI 的 o3-mini（测试版）的安全级别。为此，我们利用了我们最近发布的自动化安全性测试工具 ASTRAL。通过利用该工具，我们自动且系统地为两个模型生成并执行了 1,260 个测试输入。在对两个 LLM 提供的结果进行半自动化评估后，结果显示 DeepSeek-R1 产生的不安全响应显著多于 OpenAI 的 o3-mini（分别为 12% 和 1.2%）。