LLM2D

摘要

arXiv:2411.12155v3 公告类型: replace-cross 摘要：在强化学习（RL）中，我们训练一个值函数以理解执行单一动作所带来的长期后果。然而，在机器人领域，每个动作的价值可能是模糊的，因为机器人的动作通常是由执行多个小动作的综合结果。此外，机器人的训练数据通常由噪声轨迹组成，在这些轨迹中，每个动作都是噪声的，但是执行一系列动作会产生有意义的机器人运动。这进一步使得值函数难以理解个体动作的效果。为了应对这一挑战，我们引入了动作序列中的粗化-细化Q网络（CQN-AS），这是一种新颖的价值导向的RL算法，它学习一个批评网络，该网络输出一系列动作的Q值，即明确训练值函数以学习执行动作序列的后果。我们在BiGym、HumanoidBench和RLBench中53个具有稀疏和密集奖励的任务，以及有和没有演示任务上研究了该算法。我们发现，CQN-AS在人形控制任务中优于各种基准。