摘要
arXiv:2501.19133v1 类型: cross
摘要:在处理高维数据时,强化学习(RL)中的信用分配效果受到深度神经网络进行表示学习成功的影响,并对深度RL算法的样本效率有重要含义。输入去相关已被引入作为一种加速神经网络优化的方法,并在高效深度学习和深度RL算法的有效表示学习方法中证明了其影响力。我们提出了一种基于去相关反向传播算法的在线去相关的新方法,该方法将去相关过程无缝地集成到RL训练管道中。在每层中添加去相关矩阵,并使用一个单独的去相关学习规则来最小化所有层的总去相关损失,在最小化通常的RL损失的同时进行。我们使用DSAC(去相关的软演员-评论家)方法对该方法进行了应用,其中DSAC是软演员-评论家(SAC)方法的变体。在Atari 100k基准测试中,与常规的SAC基线相比,DSAC在七个测试游戏中有五个游戏显示更快的训练速度,两个游戏在接近50%的墙钟时间减少的情况下提高了奖励性能,而在其他游戏上保持了相同的性能水平。这些结果表明,网络级别去相关的积极影响可以加速深度RL的样本效率,通过更有效的信用分配实现。