LLM2D

摘要

arXiv:2501.19133v1 类型: cross 摘要：在处理高维数据时，强化学习（RL）中的信用分配效果受到深度神经网络进行表示学习成功的影响，并对深度RL算法的样本效率有重要含义。输入去相关已被引入作为一种加速神经网络优化的方法，并在高效深度学习和深度RL算法的有效表示学习方法中证明了其影响力。我们提出了一种基于去相关反向传播算法的在线去相关的新方法，该方法将去相关过程无缝地集成到RL训练管道中。在每层中添加去相关矩阵，并使用一个单独的去相关学习规则来最小化所有层的总去相关损失，在最小化通常的RL损失的同时进行。我们使用DSAC（去相关的软演员-评论家）方法对该方法进行了应用，其中DSAC是软演员-评论家（SAC）方法的变体。在Atari 100k基准测试中，与常规的SAC基线相比，DSAC在七个测试游戏中有五个游戏显示更快的训练速度，两个游戏在接近50%的墙钟时间减少的情况下提高了奖励性能，而在其他游戏上保持了相同的性能水平。这些结果表明，网络级别去相关的积极影响可以加速深度RL的样本效率，通过更有效的信用分配实现。