摘要
arXiv:2501.10100v3 通知类型: 替换交叉
摘要:学习稳健且通用的世界模型是实现高效可扩展的机器人控制的关键。在本文中,我们提出了一种新颖的框架,用于学习能够准确捕捉复杂、部分可观测和随机动力学的世界模型。所提出的方 法采用了一种双自回归机制和自监督训练,以在无需依赖特定领域归纳偏见的情况下实现可靠的长时预测,从而确保在各种机器人任务中的适应性。我们还提出了一种策略优化框架,该框架利用世界模型在想象的环境中进行高效训练,并在现实世界系统中无缝部署。本文通过解决长时预测、误差积累和仿真到现实转换等挑战,推动了基于模型的强化学习的发展。通过提供一种可扩展且鲁棒的框架,引入的方法为实际应用场景中的适应性和高效机器人系统铺平了道路。