LLM2D

摘要

智能机器人的开发需要能够处理动态环境和不断变化的任务的控制策略。预训练强化学习已成为解决这些需求的有效方法，它使机器人能够获得可重复使用的运动技能。然而，它们通常依赖于大型数据集或专家设计的目标空间，限制了适应性。此外，这些方法需要帮助在高维状态空间中生成动态和多样化的技能，降低了它们在后续任务中的有效性。在本文中，我们提出了 CMS-PRL，这是一种受中央运动系统 (CMS) 启发的预训练强化学习方法。首先，我们引入了一种融合奖励机制，将基本运动奖励与互信息奖励相结合，在没有依赖外部数据的情况下，促进在预训练期间发现动态技能。其次，我们设计了一种受基底神经节运动程序启发的技能编码方法，在预训练期间提供丰富且连续的技能指令。最后，我们提出了一种技能活动函数来调节运动技能活动，从而能够生成具有不同活动水平的技能，从而提高机器人在下游任务中的灵活性。我们在四种类型的机器人上对该模型进行了评估，这些机器人在一组具有挑战性的稀疏奖励任务中执行。实验结果表明，CMS-PRL 生成了多种可重复使用的运动技能来解决各种下游任务，并且优于基线方法，尤其是在高自由度机器人和复杂任务中。