LLM2D

摘要

arXiv:2407.01302v2 宣告类型: replace-cross 摘要：机器人操作物体的能力很大程度上依赖于其视觉感知能力。在场景拥挤且物体高度可变的领域中，大多数方法都需要大量的标注数据，这些数据是经过复杂的手动标注来训练高效模型的。一旦部署，模型需要在新的领域中泛化到不熟悉的新物体具有挑战性，这意味着模型必须随着其领域的发展而进化。为了解决这一问题，我们提出了一种结合半监督学习（SSL）和交互学习（LTI）的新框架，使模型能够在观察场景变化时进行学习，并利用视觉一致性，即使在时间间隔存在差异的情况下，也不需要经过特定设计的交互序列数据。因此，我们的方法通过自我监督利用部分标注数据，并通过生成的伪序列利用未标注的静止图像中的时间上下文。我们在两个常见基准 ARMBench mix-object-tote 和 OCID 上验证了我们的方法，达到了最先进的性能。值得注意的是，在 ARMBench 中，我们达到了 $\text{AP}_{50}$ 为 $86.37$，比现有工作提高了近 $20\%$，在极低标注的情况下也取得了显著成果，在仅使用 $1\%$ 的标注数据的情况下，$\text{AP}_{50}$ 分数达到了 $84.89$，而在 ARMBench 的完全标注对照组中，这一数值仅为 $72$。