LLM2D

摘要

arXiv:2503.24388v1 声明类型: 新摘要: 在复杂開放環境中運行的體現代理需要在行動前進行推理並想象可能結果（即世界模型）。然而，先前的工作要么仅在一个端到端代理中结合这些能力之一，要么将多个专门模型整合到代理系统中，这限制了政策的学习效率和泛化能力。因此，本文首次尝试在端到端的通用代理中结合推理和想象，称为RIG。为了以端到端的方式训练RIG，我们构建了一个数据管道，逐步整合和丰富从现有代理收集的轨迹中推理和想象的内容。推理和下一张图像生成的联合学习明确地建模了推理、行动和环境动力学之间的内在关联，从而在与先前工作相比的样本效率和泛化方面表现出超过17倍的改进。在推理过程中，RIG首先推理出下一步行动，生成潜在行动，然后预测行动结果，这为代理提供了在采取实际行动前基于想象进行回顾和自我纠正的机会。实验结果表明，推理和想象的结合不仅提高了通用策略的健壮性、泛化能力和互操作性，还使测试时的扩展能够提高总体性能。