LLM2D

摘要

arXiv:2502.11355v1 类别：交叉学科摘要：大规模语言模型（LLMs）正在演变成自主决策者，特别是在化学、生物、放射性及核（CBRN）等领域中，这引发了在高风险场景中发生灾难性风险的担忧。基于这样的风险可以源自智能体的有益性、无害性和诚实性（HHH）目标之间的权衡这一洞察，我们构建了一个新颖的三阶段评估框架，该框架精心设计以有效地自然地揭示这些风险。我们对12个先进的LLM进行了14,400次代理模拟，进行了广泛的实验和分析。结果显示，LLM代理可以自主地表现出灾难性行为和欺骗，而无需被故意诱导。此外，更强的推理能力往往增加而不是缓解这些风险。我们还展示了这些代理可以违反指令和优越的命令。总体而言，我们的实证研究证明了自主LLM代理中存在灾难性风险。应要求我们将发布我们的代码。