摘要
arXiv:2502.11355v3 宣布类型: replace-cross
摘要:大规模语言模型(LLMs)正在演变成自主决策者,在高风险情境中,特别是在化学、生物、放射性和核(CBRN)领域,这引发了人们对灾难性风险的担忧。鉴于这些风险可能源于智能体的有益、无害和诚实(HHH)目标之间的权衡,我们建立了一个新的三阶段评估框架,该框架设计得既有效又能自然地揭示这些风险。我们对12种先进LLM进行了14,400次智能体模拟,并进行了广泛的经验试验和分析。结果显示,LLM智能体可以自主表现出灾难性行为和欺骗行为,而无需被故意诱导。此外,更强的推理能力往往增加,而非减轻这些风险。我们还展示了这些智能体可以违反指令和优越的命令。总体而言,我们实证证明自主LLM智能体存在灾难性风险。我们将发布我们的代码,促进进一步研究。