LLM2D

摘要

arXiv:2501.10100v2 宣告类型: replace-cross 摘要：学习健壮且泛化的世界模型对于实现现实环境中高效可扩展的机器人控制至关重要。在本工作中，我们提出了一个新颖的框架，以准确捕捉复杂、部分可观测和随机动力学。所提出的方法采用了双自回归机制和自我监督训练，以实现可靠的长期预测，而无需依赖领域特定的归纳偏见，从而确保在多样化的机器人任务中具有适应性。我们还提出了一种策略优化框架，该框架利用世界模型在想象环境中的高效训练，并在现实世界的系统中无缝部署。通过解决长期预测、误差累积和从仿真到现实世界的迁移等挑战，本工作推进了基于模型的强化学习。通过提供可扩展且健壮的框架，引入的方法为实际应用中的自适应和高效机器人系统铺平了道路。