LLM2D
vat中的AI:代理沙盒化和可解释性下的世界建模基本限制
AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability
作者: Fernando Rosas, Alexander Boyd, Manuel Baltieri
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04608v1

摘要

arXiv:2504.04608v1 公告类型: 新增 摘要: 近期的研究提出了使用世界模型来生成可控的虚拟环境,以便在部署AI代理之前对其进行测试,以确保其可靠性和安全性。然而,准确的世界模型通常具有高计算需求,这可能会严重限制此类评估的范围和深度。受到经典的“ vat 中的大脑”思想实验的启发,这里我们研究了简化世界模型的方法,这些方法对正在评估的AI代理保持中立。通过遵循计算力学的原则,我们的方法揭示了在构建世界模型过程中效率与可解释性之间的基本权衡,表明单一的世界模型无法优化所有 desirable 特性。基于这种权衡,我们识别出了建立世界模型的方法,这些方法可以最小化内存需求、界定可学习的边界,或者允许追踪不良结果的原因。通过这种方式,本工作确定了世界建模的基本限制,从而提出了可操作的指导方针,这些指导方针影响了与有效代理评估相关的核心设计选择。