LLM2D

摘要

arXiv:2504.02069v1 交叉公告类型摘要：视觉语言模型（VLMs）已成为机器人系统的关键工具，通过多模态感知和语义推理，实现了跨任务泛化、动态环境交互和长期规划。然而，现有的开源VLMs大多主要用于通用视觉-语言对齐任务，未能有效地建模对于机器人操作至关重要的时间相关动作语义。尽管当前基于图像的微调方法部分适应VLMs以用于机器人应用，但它们根本忽略了视频序列中的时间演变模式，并且由于机器人代理、被操作对象和环境背景之间的视觉特征纠缠，从而限制了原子动作的语义解耦能力，影响了模型的泛化能力。为了克服这些挑战，本文提出了RoboAct-CLIP，并有两个技术贡献：1）一个数据集重构框架，对开源的机器人视频进行语义约束的动作单元分割和重新注释，构建包含单一原子动作（如“抓取”）的净化训练集；2）基于对比语言-图像预训练（CLIP）架构的时序解耦微调策略，通过将视频帧中的时序动作特征从以对象为中心的特性中解耦，实现机器人原子动作的分层表示学习。模拟环境中的实验结果表明，RoboAct-CLIP预训练模型的成功率比基线VLMs高12%，并且在多对象操作任务中的泛化能力更强。