LLM2D

摘要

软演员评论家 (SAC) 算法以其在深度强化学习中的稳定性和高样本效率而闻名。然而，SAC 中应用于采样动作的 tanh 变换会扭曲动作分布，从而阻碍最可能动作的选择。本文提出了一种新的动作采样方法，该方法可以直接识别和选择变换分布中最可能的动作，从而解决了这个问题。在标准连续控制基准上的大量实验表明，该方法显著提高了 SAC 的性能，与原始算法相比，实现了更快的收敛速度和更高的累积奖励。