LLM2D
选择再行动:空间解耦动作重复用于连续控制
Select before Act: Spatially Decoupled Action Repetition for Continuous Control
作者: Buqing Nie, Yangqing Fu, Yue Gao
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.06919v1

摘要

arXiv:2502.06919v1 交叉公告类型 摘要:强化学习(RL)在各种连续控制任务中取得了显著的成功,如机器人操作和运动。不同于主流的逐个步骤决策的RL,最近的研究将动作重复引入到RL中,从而提高了动作的持久性,并增强了样本效率和性能。然而,现有的方法在重复过程中将所有动作维度视为整体处理,忽视了它们之间的差异性。这种限制导致了决策的灵活性降低,从而降低了策略的敏捷性和有效性。在本文中,我们提出了一种新颖的重复框架SDAR,该框架通过单独为每个动作维度执行闭环执行-重复选择来实现空间解耦的动作重复。SDAR实现了更灵活的重复策略,从而提高了动作持久性和多样性的良好平衡。与现有的重复框架相比,SDAR在策略性能和减少动作波动方面更具样本效率。在各种连续控制场景中进行了实验,证明了本文提出的空间解耦重复设计的有效性。