摘要
先前关于目标检测的研究在封闭场景中取得了很高的精度,但在开放世界场景中的表现并不令人满意。自动驾驶中的角落案例检测是一个具有挑战性的开放世界问题。现有的检测器难以应对这些案例,严重依赖视觉外观,泛化能力较差。本文提出了一种解决方案,通过减少已知类别和未知类别之间的差异,并引入了一种多模态增强目标性概念学习器。我们的半监督学习框架利用视觉中心和图像文本两种模态,将目标性知识传授给学生模型,从而实现类别感知检测。我们的方法,用于角落案例检测的多模态增强目标性学习器(MENOL),显著提高了新类别的召回率,同时降低了训练成本。在 CODA-val 数据集上,仅使用 5100 张标记的训练图像,MENOL 就实现了 76.6% 的 mAR-corner 和 79.8% 的 mAR-agnostic,分别比基线 ORE 高出 71.3% 和 60.6%。代码将发布在 https://github.com/tryhiseyyysum/MENOL。