LLM2D

摘要

arXiv:2410.16739v2 宣告类型: 替换-交叉摘要：Soft Actor-Critic算法因其在广泛范围的深度强化学习任务中表现出稳健的性能而受到广泛认可，它利用tanh变换将动作限定在有界范围内。然而，这种变换引起了分布偏移，扭曲了原始的高斯动作分布，并可能导致策略选择次优动作，特别是在高维动作空间中。在这篇文章中，我们对这种分布偏移进行了全面的理论和实证分析，推导了经过tanh变换后动作的精确概率密度函数（PDF），以阐明转换分布的模式与预期动作输出之间的偏差。我们通过在HumanoidBench基准中的高维任务上的广泛实验验证了这些理论洞察。我们的发现表明，考虑到这种分布偏移显著提升了SAC的表现，导致累计奖励、采样效率和任务可靠性方面的显著改进。这些结果强调了对SAC及其类似算法的一个关键考虑：解决由变换引起的分布偏移是优化在高维深度强化学习环境中策略效果的关键，从而扩展了SAC在复杂控制任务中的鲁棒性和适用性。