LLM2D

摘要

人工智能在机器人学中发挥着至关重要的作用，而强化学习 (RL) 已成为机器人控制最有希望的方法之一。然而，一些关键挑战阻碍了其更广泛的应用。首先，许多 RL 方法依赖于在线学习，这需要现实世界的硬件或先进的模拟环境，而这两种方法都可能成本高昂、耗时且不切实际。离线强化学习提供了一种解决方案，使模型能够在没有持续访问物理机器人或模拟的情况下进行训练。第二个挑战是学习多目标任务，其中机器人必须同时实现多个目标。这增加了训练过程的复杂性，因为模型必须跨不同目标进行泛化。与此同时，Transformer 架构在包括强化学习在内的各个领域都获得了极大的普及。然而，现有的方法无法有效地将离线训练、多目标学习和基于 Transformer 的架构结合起来。在本文中，我们通过引入决策 Transformer 架构的新颖改进来解决这些挑战，用于机器人离线多目标强化学习。我们的方法将目标特定信息集成到决策 Transformer 中，使其能够在离线环境中处理复杂的任务。为了验证我们的方法，我们使用模拟中的 Panda 机器人平台开发了一个新的离线强化学习数据集。我们广泛的实验表明，决策 Transformer 可以优于最先进的在线强化学习方法。