摘要
arXiv:2403.02107v4 通知类型: 替换-交叉
摘要:几乎所有强化学习方法都很大程度上受到获得有效动作值函数估计所需的计算努力和数据需求的影响,而这些估计值又决定了整体性能和学习过程的样本效率。通常,动作值函数是通过交替应用贝尔曼算子的经验近似和随后将结果投影到一个考虑的功能空间中来估计的。观察到这种方法可以潜在地推广,以一次进行多次贝尔曼算子的迭代,从而为底层的学习算法提供好处。然而,直到现在,有效地实施这一想法,在高维问题中尤为具有挑战性。在本文中,我们介绍了一种迭代Q网络(i-QN)的新颖原理方法,该方法通过学习一个定制的动作值函数序列,其中每个动作值函数都作为下一个动作值函数的目标,实现了连续的多次贝尔曼更新。我们证明了i-QN在理论上有坚实的依据,并且可以无缝地用于基于值和演员-评论家方法中。我们通过在Atari 2600 游戏和MuJoCo 连续控制问题上进行实验证明了i-QN的优势。