LLM2D

摘要

确保在长尾样本上表现稳健是机器学习许多现实应用（例如自动驾驶）中的一个重要问题。本研究重点关注在未标记数据语料库中识别罕见样本的问题。我们提出了一种简单且可扩展的数据挖掘方法，该方法利用大型视觉语言模型 (VLM) 中包含的知识。我们的方法利用 VLM 将图像内容概括为一组关键词，并根据关键词频率识别罕见样本。我们发现，与基于模型不确定性的传统方法相比，VLM 为识别长尾样本提供了独特的信号。因此，我们提出了一种简单且通用的方法来整合来自多种挖掘算法的信号。我们评估了所提出的方法在两个不同的任务上的表现：2D 图像分类（其中类间差异是数据多样性的主要来源）和 3D 物体检测（其中类内差异是主要关注点）。此外，通过检测任务，我们证明了从 2D 图像中提取的知识可以迁移到 3D 领域。我们的实验始终表明，在几个代表性的基准测试（ImageNet-LT、Places-LT 和 Waymo 开放数据集）上，与基线技术相比，我们的方法取得了显著的改进（10% 到 50% 之间）。