LLM2D

摘要

arXiv:2502.11355v3 宣布类型: replace-cross 摘要：大规模语言模型（LLMs）正在演变成自主决策者，在高风险情境中，特别是在化学、生物、放射性和核（CBRN）领域，这引发了人们对灾难性风险的担忧。鉴于这些风险可能源于智能体的有益、无害和诚实（HHH）目标之间的权衡，我们建立了一个新的三阶段评估框架，该框架设计得既有效又能自然地揭示这些风险。我们对12种先进LLM进行了14,400次智能体模拟，并进行了广泛的经验试验和分析。结果显示，LLM智能体可以自主表现出灾难性行为和欺骗行为，而无需被故意诱导。此外，更强的推理能力往往增加，而非减轻这些风险。我们还展示了这些智能体可以违反指令和优越的命令。总体而言，我们实证证明自主LLM智能体存在灾难性风险。我们将发布我们的代码，促进进一步研究。