LLM2D
基于决策 Transformer 的多目标机器人任务求解
Solving Multi-Goal Robotic Tasks with Decision Transformer
作者: Paul Gajewski, Dominik \.Zurek, Marcin Pietro\'n, Kamil Faber
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.06347v1

摘要

人工智能在机器人学中发挥着至关重要的作用,而强化学习 (RL) 已成为机器人控制最有希望的方法之一。然而,一些关键挑战阻碍了其更广泛的应用。首先,许多 RL 方法依赖于在线学习,这需要现实世界的硬件或先进的模拟环境,而这两种方法都可能成本高昂、耗时且不切实际。离线强化学习提供了一种解决方案,使模型能够在没有持续访问物理机器人或模拟的情况下进行训练。 第二个挑战是学习多目标任务,其中机器人必须同时实现多个目标。这增加了训练过程的复杂性,因为模型必须跨不同目标进行泛化。与此同时,Transformer 架构在包括强化学习在内的各个领域都获得了极大的普及。然而,现有的方法无法有效地将离线训练、多目标学习和基于 Transformer 的架构结合起来。 在本文中,我们通过引入决策 Transformer 架构的新颖改进来解决这些挑战,用于机器人离线多目标强化学习。我们的方法将目标特定信息集成到决策 Transformer 中,使其能够在离线环境中处理复杂的任务。为了验证我们的方法,我们使用模拟中的 Panda 机器人平台开发了一个新的离线强化学习数据集。我们广泛的实验表明,决策 Transformer 可以优于最先进的在线强化学习方法。