摘要
arXiv:2504.02069v1 交叉公告类型
摘要:视觉语言模型(VLMs)已成为机器人系统的关键工具,通过多模态感知和语义推理,实现了跨任务泛化、动态环境交互和长期规划。然而,现有的开源VLMs大多主要用于通用视觉-语言对齐任务,未能有效地建模对于机器人操作至关重要的时间相关动作语义。尽管当前基于图像的微调方法部分适应VLMs以用于机器人应用,但它们根本忽略了视频序列中的时间演变模式,并且由于机器人代理、被操作对象和环境背景之间的视觉特征纠缠,从而限制了原子动作的语义解耦能力,影响了模型的泛化能力。为了克服这些挑战,本文提出了RoboAct-CLIP,并有两个技术贡献:1)一个数据集重构框架,对开源的机器人视频进行语义约束的动作单元分割和重新注释,构建包含单一原子动作(如“抓取”)的净化训练集;2)基于对比语言-图像预训练(CLIP)架构的时序解耦微调策略,通过将视频帧中的时序动作特征从以对象为中心的特性中解耦,实现机器人原子动作的分层表示学习。模拟环境中的实验结果表明,RoboAct-CLIP预训练模型的成功率比基线VLMs高12%,并且在多对象操作任务中的泛化能力更强。