LLM2D

摘要

arXiv:2502.01218v1 交叉公告类型摘要：在人类动作视频上预训练视觉-语言表示已成为一种减少对大规模专家演示依赖的有前途的方法，用于训练具身智能体。然而，先前的方法往往采用基于目标达成启发式的时序对比学习，逐步将语言指令从最初的帧对齐到最终的帧。这种过度强调未来帧的做法可能会导致视觉-语言关联出现错误，因为动作可能在早期终止或包含无关的末尾时刻。为了解决这一问题，我们提出了一种动作时序一致性学习（AcTOL）方法，以学习有序且连续的视觉-语言表示，而不受限于刚性目标驱动的约束。AcTOL 将视频视为连续轨迹，其中（1）对比帧之间的语义差异以反映其自然排序，（2）施加局部布朗桥约束以确保在中间帧之间平滑过渡。跨不同示范数量的广泛模仿学习实验表明，预训练特征通过高达49%的增强显著提高了下游操作任务的性能，具有对不同指令语言风格的高鲁棒性，提供了通向通用具身智能体的可行途径。源代码附在补充材料中供参考。