LLM2D

摘要

arXiv:2504.04072v1 宣布类型: 新摘要: 研究AI代理中的欺骗性具有重要意义，但由于缺乏能够引发这种行为的模型生物和无需让模型在特定条件下行动或插入故意后门的沙箱环境，使得这项研究极具挑战性。在此基础上，我们扩展了 $\textit{AmongAgents}$，一种基于文本的社会推理游戏环境。我们的目标是通过将《 Among Us 》引入作为一个丰富的沙箱，让LLM代理自然地表现出类似人类的欺骗性，同时与其他代理或人类相互思考、交流和行动。我们引入了欺骗ELO作为衡量欺骗能力的无界指标，表明前沿模型之所以胜出，是因为它们在欺骗方面更擅长，而不是在检测方面。我们评估了多种AI安全技术（LLM对输出的监控、在各种数据集上的线性探针以及稀疏自动编码器）在《Among Us》中检测撒谎和欺骗的效果，并发现它们在离分布外表现得非常好。我们开源了这个沙箱作为未来对齐研究的基准，并希望这能成为提高检测和消除代理动机欺骗的技术，以及预见LLM欺骗能力的良好测试平台。