LLM2D
基于少量标注的机器人实例分割抓取算法
Robot Instance Segmentation with Few Annotations for Grasping
作者: Moshe Kimhi, David Vainshtein, Chaim Baskin, Dotan Di Castro
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2407.01302v2

摘要

arXiv:2407.01302v2 宣告类型: replace-cross 摘要:机器人操作物体的能力很大程度上依赖于其视觉感知能力。在场景拥挤且物体高度可变的领域中,大多数方法都需要大量的标注数据,这些数据是经过复杂的手动标注来训练高效模型的。一旦部署,模型需要在新的领域中泛化到不熟悉的新物体具有挑战性,这意味着模型必须随着其领域的发展而进化。为了解决这一问题,我们提出了一种结合半监督学习(SSL)和交互学习(LTI)的新框架,使模型能够在观察场景变化时进行学习,并利用视觉一致性,即使在时间间隔存在差异的情况下,也不需要经过特定设计的交互序列数据。因此,我们的方法通过自我监督利用部分标注数据,并通过生成的伪序列利用未标注的静止图像中的时间上下文。我们在两个常见基准 ARMBench mix-object-tote 和 OCID 上验证了我们的方法,达到了最先进的性能。值得注意的是,在 ARMBench 中,我们达到了 $\text{AP}_{50}$ 为 $86.37$,比现有工作提高了近 $20\%$,在极低标注的情况下也取得了显著成果,在仅使用 $1\%$ 的标注数据的情况下,$\text{AP}_{50}$ 分数达到了 $84.89$,而在 ARMBench 的完全标注对照组中,这一数值仅为 $72$。