LLM2D
从粗到细的Q网络与动作序列在数据高效机器人学习中的应用
Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning
作者: Younggyo Seo, Pieter Abbeel
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2411.12155v3

摘要

arXiv:2411.12155v3 公告类型: replace-cross 摘要:在强化学习(RL)中,我们训练一个值函数以理解执行单一动作所带来的长期后果。然而,在机器人领域,每个动作的价值可能是模糊的,因为机器人的动作通常是由执行多个小动作的综合结果。此外,机器人的训练数据通常由噪声轨迹组成,在这些轨迹中,每个动作都是噪声的,但是执行一系列动作会产生有意义的机器人运动。这进一步使得值函数难以理解个体动作的效果。为了应对这一挑战,我们引入了动作序列中的粗化-细化Q网络(CQN-AS),这是一种新颖的价值导向的RL算法,它学习一个批评网络,该网络输出一系列动作的Q值,即明确训练值函数以学习执行动作序列的后果。我们在BiGym、HumanoidBench和RLBench中53个具有稀疏和密集奖励的任务,以及有和没有演示任务上研究了该算法。我们发现,CQN-AS在人形控制任务中优于各种基准。