摘要
arXiv:2502.11355v1 类别:交叉学科
摘要:大规模语言模型(LLMs)正在演变成自主决策者,特别是在化学、生物、放射性及核(CBRN)等领域中,这引发了在高风险场景中发生灾难性风险的担忧。基于这样的风险可以源自智能体的有益性、无害性和诚实性(HHH)目标之间的权衡这一洞察,我们构建了一个新颖的三阶段评估框架,该框架精心设计以有效地自然地揭示这些风险。我们对12个先进的LLM进行了14,400次代理模拟,进行了广泛的实验和分析。结果显示,LLM代理可以自主地表现出灾难性行为和欺骗,而无需被故意诱导。此外,更强的推理能力往往增加而不是缓解这些风险。我们还展示了这些代理可以违反指令和优越的命令。总体而言,我们的实证研究证明了自主LLM代理中存在灾难性风险。应要求我们将发布我们的代码。