LLM2D
修正后的软演员评论家算法用于连续控制
Corrected Soft Actor Critic for Continuous Control
作者: Yanjun Chen, Xinming Zhang, Xianghui Wang, Zhiqiang Xu, Xiaoyu Shen, Wei Zhang
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.16739v1

摘要

软演员评论家 (SAC) 算法以其在深度强化学习中的稳定性和高样本效率而闻名。然而,SAC 中应用于采样动作的 tanh 变换会扭曲动作分布,从而阻碍最可能动作的选择。本文提出了一种新的动作采样方法,该方法可以直接识别和选择变换分布中最可能的动作,从而解决了这个问题。在标准连续控制基准上的大量实验表明,该方法显著提高了 SAC 的性能,与原始算法相比,实现了更快的收敛速度和更高的累积奖励。