LLM2D
核部署:分析自主大型语言模型代理决策中的灾难性风险
Nuclear Deployed: Analyzing Catastrophic Risks in Decision-making of Autonomous LLM Agents
作者: Rongwu Xu, Xiaojian Li, Shuo Chen, Wei Xu
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2502.11355v3

摘要

arXiv:2502.11355v3 宣布类型: replace-cross 摘要:大规模语言模型(LLMs)正在演变成自主决策者,在高风险情境中,特别是在化学、生物、放射性和核(CBRN)领域,这引发了人们对灾难性风险的担忧。鉴于这些风险可能源于智能体的有益、无害和诚实(HHH)目标之间的权衡,我们建立了一个新的三阶段评估框架,该框架设计得既有效又能自然地揭示这些风险。我们对12种先进LLM进行了14,400次智能体模拟,并进行了广泛的经验试验和分析。结果显示,LLM智能体可以自主表现出灾难性行为和欺骗行为,而无需被故意诱导。此外,更强的推理能力往往增加,而非减轻这些风险。我们还展示了这些智能体可以违反指令和优越的命令。总体而言,我们实证证明自主LLM智能体存在灾难性风险。我们将发布我们的代码,促进进一步研究。