LLM2D

摘要

arXiv:2505.09561v1 交叉类型: cross 摘要：在一系列观察和动作上进行推理对于许多机器人任务至关重要。然而，从演示中学习有效的长上下文策略仍然极具挑战性。随着上下文长度的增加，由于内存需求上升，训练成本也会随之增加，从而导致策略性能由于虚假相关性的出现而下降。最近的方法通常通过截断上下文长度来绕过这些问题，丢弃可能对后续决策至关重要的历史信息。在本文中，我们提出了一种替代方法，其明确地正则化了过去信息的保留。我们首先重新审视了在模仿学习中遇到的copycat问题，并指出最近的扩散策略中存在一个相反的挑战：它们常常未能捕捉到过去和未来动作之间的关键依赖关系，而不仅仅是过度依赖于之前的动作。为了解决这个问题，我们引入了Past-Token Prediction (PTP) 辅助任务，在该任务中，策略学习预测过去的动作令牌和未来的动作令牌。这种正则化显著提高了策略头的时序建模能力，几乎不需要视觉表示。在此观察结果的基础上，我们进一步引入了一种多阶段训练策略：短上下文条件下预训练视觉编码器，并使用缓存的长上下文嵌入微调策略头。这一策略保留了PTP的好处，同时大大减少了内存和计算开销。最后，我们在测试时将PTP扩展为一种自我验证机制，使得策略能够在推理过程中为与过去动作一致的动作候选评分和选择。在四个真实世界任务和六个模拟任务上的实验表明，我们提出的方法将长上下文扩散策略的性能提高了3倍，并将策略训练加速了超过10倍。