LLM2D

摘要

arXiv:2502.10097v1 宣布类型: 新摘要：当前的强化学习（RL）方法往往效率低下，源于盲目的探索策略忽视了状态、动作和奖励之间的因果关系。尽管最近的因果方法试图解决这个问题，但它们缺乏对状态和动作的奖励导向因果理解的基于事实的建模，从而阻碍了学习效率。为了解决这一问题，我们提出了一种名为因果信息优先级（CIP）的新方法，通过利用因变量MDPs来推断状态和动作在不同维度上的因果关系，从而提高样本效率，使因果信息得以优先化。具体来说，CIP 识别并利用了状态与奖励之间的因果关系，执行反事实数据增强，根据环境的因果理解优先化高影响的状态特征。此外，CIP 结合了一个因果意识的自主能力学习目标，这显著增强了代理执行奖励导向动作的能力，使其在复杂环境中的高效探索更为有效。为了全面评估 CIP 的有效性，我们在 5 个不同的连续控制环境中进行了广泛的实验，涵盖 39 个任务，包括基于像素和稀疏奖励设置的学习运动和操作技能。实验结果表明，CIP 在广泛的情景中一贯优于现有 RL 方法。