LLM2D
OpenDeception:通过开放交互模拟评估和探究AI欺骗行为
OpenDeception: Benchmarking and Investigating AI Deceptive Behaviors via Open-ended Interaction Simulation
作者: Yichen Wu, Xudong Pan, Geng Hong, Min Yang
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2504.13707v1

摘要

arXiv:2504.13707v1 宣布类型: 新 摘要:随着大型语言模型(LLMs)的一般能力不断提高和智能代理应用的日益普及,潜在的欺骗风险迫切需要系统评价和有效监督。不同于现有的通过模拟游戏或提供有限选择进行的评估,我们引入了OpenDeception,这是一种具有开放场景数据集的新型欺骗评估框架。OpenDeception通过检查LLM代理的内部推理过程,共同评估其欺骗意图和能力。具体而言,我们构建了五种常见的应用场景,其中LLMs与用户进行密集交互,每个场景由十个来自真实世界的不同且具体的场景组成。为避免伦理问题和高风险的欺骗性互动带来的成本,我们提议通过代理模拟来模拟多轮对话。对OpenDeception中十一款主流LLM的广泛评估突显了在LLM代理中迫切需要应对欺骗风险和安全问题的必要性:这些模型的欺骗意图比例超过80%,而欺骗成功率超过50%。此外,我们观察到,能力更强的LLMs更有可能表现出欺骗行为,这要求更加强调抑制欺骗行为的努力。