LLM2D
通过合适的因果世界模型做出更好决策
Better Decisions through the Right Causal World Model
作者: Elisabeth Dillies, Quentin Delfosse, Jannis Bl\"uml, Raban Emunds, Florian Peter Busch, Kristian Kersting
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2504.07257v1

摘要

arXiv:2504.07257v1 通知类型: 新 摘要: 强化学习(RL)代理在各种环境中展示了卓越的性能,它们可以直接从感官输入中发现有效的策略。然而,这些代理通常利用训练数据中的虚假关联,导致难以在新环境或略有修改的环境中进行泛化。为了解决这一问题,我们引入了因果对象中心模型提取工具(COMET),这是一种旨在学习精确可解释的因果世界模型(CWMs)的新型算法。COMET 首先从观察中提取对象中心的状态描述,并识别与所描绘对象属性相关的环境内部状态。利用符号回归,它建模对象中心的转换并推导出管理对象动力学的因果关系。COMET 进一步结合了大型语言模型(LLMs)进行语义推理,标注因果变量以增强可解释性。 通过利用这些能力,COMET 构建了与环境真实因果结构一致的CWMs,使代理能够关注与任务相关的特点。提取的CWMs减轻了捷径的危险,允许开发出能够在动态场景中进行更好规划和决策的RL系统。我们的结果在Atari环境中对Pong和Freeway的验证表明了COMET的准确性和鲁棒性,突显了其在对象中心推理和因果推断之间的潜在联系方面的潜力。