LLM2D
在使用预训练的视觉-语言模型进行开放集主动学习中避免浪费标注成本
Avoid Wasted Annotation Costs in Open-set Active Learning with Pre-trained Vision-Language Model
作者: Jaehyuk Heo, Pilsung Kang
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2408.04917v2

摘要

arXiv:2408.04917v2 宣布类型: 替换-交叉 摘要: 主动学习(AL)旨在通过有选择地收集高信息量的数据来增强模型性能,从而最小化注释成本。然而,在实际场景中,未标注数据可能包含离分布(OOD,Out-of-Distribution)样本,这些样本不用于训练,如果错误选择数据,则会导致注释成本的浪费。因此,为了让主动学习在实际应用中可行,不仅要考虑未标注样本的信息量,还必须考虑其纯度来确定它们是否属于在分布(ID,In-Distribution)。最近的研究在这些假设下应用了主动学习,但由于信息量和纯度之间的权衡,以及对OOD样本的高依赖性,仍存在挑战。这些问题导致收集OOD样本,从而造成显著的注释成本浪费。为了解决这些挑战,我们提出了一种新的查询策略—VLPure-AL,它在减少对OOD样本的依赖的同时,最小化成本损失。VLPure-AL 依次评估数据的纯度和信息量。首先,它利用预训练的视觉-语言模型,通过利用ID数据的语义和视觉信息高精度地检测和排除OOD数据。其次,它从剩余的ID数据中选择高信息量的数据,然后由人类专家对选定样本进行标注。在具有各种开放集条件的数据集上的实验结果表明,VLPure-AL 在所有场景中均能实现最低的成本损失和最高的性能。代码可在 https://github.com/DSBA-Lab/OpenAL 获取。