LLM2D
VLMine:基于视觉语言模型的长尾数据挖掘
VLMine: Long-Tail Data Mining with Vision Language Models
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2409.15486v1

摘要

确保在长尾样本上表现稳健是机器学习许多现实应用(例如自动驾驶)中的一个重要问题。本研究重点关注在未标记数据语料库中识别罕见样本的问题。我们提出了一种简单且可扩展的数据挖掘方法,该方法利用大型视觉语言模型 (VLM) 中包含的知识。我们的方法利用 VLM 将图像内容概括为一组关键词,并根据关键词频率识别罕见样本。我们发现,与基于模型不确定性的传统方法相比,VLM 为识别长尾样本提供了独特的信号。因此,我们提出了一种简单且通用的方法来整合来自多种挖掘算法的信号。我们评估了所提出的方法在两个不同的任务上的表现:2D 图像分类(其中类间差异是数据多样性的主要来源)和 3D 物体检测(其中类内差异是主要关注点)。此外,通过检测任务,我们证明了从 2D 图像中提取的知识可以迁移到 3D 领域。我们的实验始终表明,在几个代表性的基准测试(ImageNet-LT、Places-LT 和 Waymo 开放数据集)上,与基线技术相比,我们的方法取得了显著的改进(10% 到 50% 之间)。