LLM2D

摘要

arXiv:2504.18662v1 数据类型: cross 摘要: 动作时间分割(TAS)一直以来都是机器人技术和计算机视觉领域的关键研究领域。在机器人技术中，算法主要侧重于利用本体感受信息来确定技能边界，近期的手术机器人研究开始引入视觉信息。相比之下，计算机视觉通常依赖于外部传感器，如摄像头。现有的机器人多模态TAS模型在模型内部实现特征融合，使得难以跨不同模型重用所学的特征。同时，计算机视觉中常用的预训练纯视觉特征提取器在物体可见度有限的情况下表现不佳。为了解决这些挑战，我们提出了一种名为M2R2的多模态特征提取器，它结合了本体感受和外部传感器的信息。我们引入了一种新的预训练策略，使得所学特征能够在多个TAS模型中重用。我们的方法在REASSEMBLE数据集上取得了最先进的性能，该数据集是一个具有挑战性的多模态机器人装配数据集，相对于现有的机器人动作分割模型，性能提高了46.6%。此外，我们还进行了广泛的操作消除研究，以评估不同模态在机器人TAS任务中的贡献。