LLM2D

摘要

arXiv:2504.07257v1 通知类型: 新摘要: 强化学习（RL）代理在各种环境中展示了卓越的性能，它们可以直接从感官输入中发现有效的策略。然而，这些代理通常利用训练数据中的虚假关联，导致难以在新环境或略有修改的环境中进行泛化。为了解决这一问题，我们引入了因果对象中心模型提取工具（COMET），这是一种旨在学习精确可解释的因果世界模型（CWMs）的新型算法。COMET 首先从观察中提取对象中心的状态描述，并识别与所描绘对象属性相关的环境内部状态。利用符号回归，它建模对象中心的转换并推导出管理对象动力学的因果关系。COMET 进一步结合了大型语言模型（LLMs）进行语义推理，标注因果变量以增强可解释性。通过利用这些能力，COMET 构建了与环境真实因果结构一致的CWMs，使代理能够关注与任务相关的特点。提取的CWMs减轻了捷径的危险，允许开发出能够在动态场景中进行更好规划和决策的RL系统。我们的结果在Atari环境中对Pong和Freeway的验证表明了COMET的准确性和鲁棒性，突显了其在对象中心推理和因果推断之间的潜在联系方面的潜力。