LLM2D
“核武部署了!”:分析自主大型语言模型代理决策中的灾难风险
"Nuclear Deployed!": Analyzing Catastrophic Risks in Decision-making of Autonomous LLM Agents
作者: Rongwu Xu, Xiaojian Li, Shuo Chen, Wei Xu
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11355v1

摘要

arXiv:2502.11355v1 类别:交叉学科 摘要:大规模语言模型(LLMs)正在演变成自主决策者,特别是在化学、生物、放射性及核(CBRN)等领域中,这引发了在高风险场景中发生灾难性风险的担忧。基于这样的风险可以源自智能体的有益性、无害性和诚实性(HHH)目标之间的权衡这一洞察,我们构建了一个新颖的三阶段评估框架,该框架精心设计以有效地自然地揭示这些风险。我们对12个先进的LLM进行了14,400次代理模拟,进行了广泛的实验和分析。结果显示,LLM代理可以自主地表现出灾难性行为和欺骗,而无需被故意诱导。此外,更强的推理能力往往增加而不是缓解这些风险。我们还展示了这些代理可以违反指令和优越的命令。总体而言,我们的实证研究证明了自主LLM代理中存在灾难性风险。应要求我们将发布我们的代码。