LLM2D

摘要

arXiv:2502.10894v1 宣传类型：交叉摘要：实现机器人在运动中的动作操控需要超越传统的跟踪奖励——这些奖励仅仅引导机器人沿参考轨迹运动——转向能够驱动真正动态、目标导向行为的任务奖励。例如，“尽可能远地扔球”或“尽可能快地举重”的指令促使机器人展现类似于体育表现的敏捷性和力量。然而，仅使用任务奖励进行训练会带来两大主要挑战：这些奖励容易被滥用（奖励黑客攻击），并且探索过程可能缺乏足够的方向。为了解决这些问题，我们提出了一种两阶段的训练管道。首先，我们引入了无监督执行器网络（UAN），该网络利用现实世界的数据来弥合复杂执行机制的模拟到现实差距，而无需访问扭矩感知。UAN通过确保学习到的行为保持稳健和可转移性来防止奖励黑客攻击。其次，我们采用了一种预训练和微调策略，利用参考轨迹作为初步线索来引导探索过程。借助这些创新，我们的机器人运动员能够在从模拟到现实的过程中学会以惊人的保真度进行举重、扔球和拖拽。