摘要
arXiv:2502.10077v1 宣告类型: 新颖
摘要: 在基于模型的强化学习(MBRL)中,将因果结构整合到动力学模型中为智能体提供了结构化的环境理解,使其能够进行高效的决策。内在动机——赋能,通过最大化未来状态与动作之间的互信息,增强了智能体主动控制环境的能力。我们提出,结合因果理解的赋能可以在MBRL中提高可控性,而增强的赋能增益可以进一步促进因果推理。为了提高学习效率和可控性,我们提出了一个名为因果学习驱动的赋能(ECL,Empowerment through Causal Learning)的新框架,其中具备因果动力学模型意识的智能体实现了以赋能为导向的探索,并优化其因果结构以进行任务学习。具体而言,ECL 的操作首先基于收集的数据训练环境的因果动力学模型。然后,在因果结构下最大化赋能进行探索,同时利用探索过程中收集的数据更新因果动力学模型,使其比没有因果结构的密集动力学模型更具可控性。在下游任务学习中,我们引入了固有的好奇心奖励来平衡因果性,避免过拟合。重要的是,ECL 是方法无关的,并能够整合各种因果发现方法。我们在包括基于像素的任务在内的 6 个环境中,与 3 种因果发现方法结合使用,评估了 ECL 的性能,结果显示其在因果发现、样本效率和渐近性能方面都优于其他因果 MBRL 方法。