LLM2D

摘要

arXiv:2502.06919v1 交叉公告类型摘要：强化学习（RL）在各种连续控制任务中取得了显著的成功，如机器人操作和运动。不同于主流的逐个步骤决策的RL，最近的研究将动作重复引入到RL中，从而提高了动作的持久性，并增强了样本效率和性能。然而，现有的方法在重复过程中将所有动作维度视为整体处理，忽视了它们之间的差异性。这种限制导致了决策的灵活性降低，从而降低了策略的敏捷性和有效性。在本文中，我们提出了一种新颖的重复框架SDAR，该框架通过单独为每个动作维度执行闭环执行-重复选择来实现空间解耦的动作重复。SDAR实现了更灵活的重复策略，从而提高了动作持久性和多样性的良好平衡。与现有的重复框架相比，SDAR在策略性能和减少动作波动方面更具样本效率。在各种连续控制场景中进行了实验，证明了本文提出的空间解耦重复设计的有效性。