LLM2D

摘要

先前关于目标检测的研究在封闭场景中取得了很高的精度，但在开放世界场景中的表现并不令人满意。自动驾驶中的角落案例检测是一个具有挑战性的开放世界问题。现有的检测器难以应对这些案例，严重依赖视觉外观，泛化能力较差。本文提出了一种解决方案，通过减少已知类别和未知类别之间的差异，并引入了一种多模态增强目标性概念学习器。我们的半监督学习框架利用视觉中心和图像文本两种模态，将目标性知识传授给学生模型，从而实现类别感知检测。我们的方法，用于角落案例检测的多模态增强目标性学习器（MENOL），显著提高了新类别的召回率，同时降低了训练成本。在 CODA-val 数据集上，仅使用 5100 张标记的训练图像，MENOL 就实现了 76.6% 的 mAR-corner 和 79.8% 的 mAR-agnostic，分别比基线 ORE 高出 71.3% 和 60.6%。代码将发布在 https://github.com/tryhiseyyysum/MENOL。