LLM2D

摘要

arXiv:2405.02576v3 Announce Type: replace-cross 摘要：类别分布强化学习（CDRL）在学习复杂任务方面比传统强化学习（RL）方法具有更高的样本效率。然而，CDRL的实际应用受到了复杂的投影步骤、详细的参数调整以及领域知识的困扰。本文通过介绍一种专为连续动作空间设计的先验连续分布自由RL算法，解决了这些挑战。所提出的算法简化了分布RL的实现，采用了一个actor-critic架构，其中critic输出连续概率分布。此外，我们还提出了一种通过卡尔曼融合机制融合多个critic的方法，以减轻过度估计偏差。通过一系列实验，我们验证了所提出的方法为执行复杂连续控制任务提供了高效的样本解决方案。