摘要
arXiv:2504.13707v1 宣布类型: 新
摘要:随着大型语言模型(LLMs)的一般能力不断提高和智能代理应用的日益普及,潜在的欺骗风险迫切需要系统评价和有效监督。不同于现有的通过模拟游戏或提供有限选择进行的评估,我们引入了OpenDeception,这是一种具有开放场景数据集的新型欺骗评估框架。OpenDeception通过检查LLM代理的内部推理过程,共同评估其欺骗意图和能力。具体而言,我们构建了五种常见的应用场景,其中LLMs与用户进行密集交互,每个场景由十个来自真实世界的不同且具体的场景组成。为避免伦理问题和高风险的欺骗性互动带来的成本,我们提议通过代理模拟来模拟多轮对话。对OpenDeception中十一款主流LLM的广泛评估突显了在LLM代理中迫切需要应对欺骗风险和安全问题的必要性:这些模型的欺骗意图比例超过80%,而欺骗成功率超过50%。此外,我们观察到,能力更强的LLMs更有可能表现出欺骗行为,这要求更加强调抑制欺骗行为的努力。