摘要
arXiv:2502.07591v1 通知类型: 交叉
摘要:世界模型中的想象对于使代理能够在样本高效的方式下学习远期策略至关重要。现有的基于递归状态空间模型(RSSM)的世界模型依赖于单步统计推理来捕捉环境动力学,因此由于预测误差的累积,它们无法执行长期想象任务。受人类认知的双过程理论的启发,我们提出了一种新颖的双思维世界模型(DMWM)框架,以逻辑推理为基础,以便通过逻辑一致性来实现想象。DMWM 由两个组成部分组成:一个基于RSSM 的直观地处理状态转换的System 1 (RSSM-S1) 组件,以及一个通过分层深入逻辑推理来引导想象过程的逻辑集成神经网络(System 2, LINN-S2) 组件。系统间反馈机制设计旨在确保想象过程遵循真实环境的逻辑规则。该框架在 DMControl 套件中的基准任务上进行了评估。广泛的经验结果表明,在逻辑连贯性、试次效率、数据效率和长期想象方面,所提出的框架在最先进的世界模型中表现出显著的改进。