摘要
arXiv:2502.10097v1 宣布类型: 新
摘要:当前的强化学习(RL)方法往往效率低下,源于盲目的探索策略忽视了状态、动作和奖励之间的因果关系。尽管最近的因果方法试图解决这个问题,但它们缺乏对状态和动作的奖励导向因果理解的基于事实的建模,从而阻碍了学习效率。为了解决这一问题,我们提出了一种名为因果信息优先级(CIP)的新方法,通过利用因变量MDPs来推断状态和动作在不同维度上的因果关系,从而提高样本效率,使因果信息得以优先化。具体来说,CIP 识别并利用了状态与奖励之间的因果关系,执行反事实数据增强,根据环境的因果理解优先化高影响的状态特征。此外,CIP 结合了一个因果意识的自主能力学习目标,这显著增强了代理执行奖励导向动作的能力,使其在复杂环境中的高效探索更为有效。为了全面评估 CIP 的有效性,我们在 5 个不同的连续控制环境中进行了广泛的实验,涵盖 39 个任务,包括基于像素和稀疏奖励设置的学习运动和操作技能。实验结果表明,CIP 在广泛的情景中一贯优于现有 RL 方法。