摘要
arXiv:2502.01218v1 交叉公告类型
摘要:在人类动作视频上预训练视觉-语言表示已成为一种减少对大规模专家演示依赖的有前途的方法,用于训练具身智能体。然而,先前的方法往往采用基于目标达成启发式的时序对比学习,逐步将语言指令从最初的帧对齐到最终的帧。这种过度强调未来帧的做法可能会导致视觉-语言关联出现错误,因为动作可能在早期终止或包含无关的末尾时刻。为了解决这一问题,我们提出了一种动作时序一致性学习(AcTOL)方法,以学习有序且连续的视觉-语言表示,而不受限于刚性目标驱动的约束。AcTOL 将视频视为连续轨迹,其中(1)对比帧之间的语义差异以反映其自然排序,(2)施加局部布朗桥约束以确保在中间帧之间平滑过渡。跨不同示范数量的广泛模仿学习实验表明,预训练特征通过高达49%的增强显著提高了下游操作任务的性能,具有对不同指令语言风格的高鲁棒性,提供了通向通用具身智能体的可行途径。源代码附在补充材料中供参考。