LLM2D

摘要

arXiv:2502.10077v1 宣告类型: 新颖摘要: 在基于模型的强化学习（MBRL）中，将因果结构整合到动力学模型中为智能体提供了结构化的环境理解，使其能够进行高效的决策。内在动机——赋能，通过最大化未来状态与动作之间的互信息，增强了智能体主动控制环境的能力。我们提出，结合因果理解的赋能可以在MBRL中提高可控性，而增强的赋能增益可以进一步促进因果推理。为了提高学习效率和可控性，我们提出了一个名为因果学习驱动的赋能（ECL，Empowerment through Causal Learning）的新框架，其中具备因果动力学模型意识的智能体实现了以赋能为导向的探索，并优化其因果结构以进行任务学习。具体而言，ECL 的操作首先基于收集的数据训练环境的因果动力学模型。然后，在因果结构下最大化赋能进行探索，同时利用探索过程中收集的数据更新因果动力学模型，使其比没有因果结构的密集动力学模型更具可控性。在下游任务学习中，我们引入了固有的好奇心奖励来平衡因果性，避免过拟合。重要的是，ECL 是方法无关的，并能够整合各种因果发现方法。我们在包括基于像素的任务在内的 6 个环境中，与 3 种因果发现方法结合使用，评估了 ECL 的性能，结果显示其在因果发现、样本效率和渐近性能方面都优于其他因果 MBRL 方法。