LLM2D

摘要

arXiv:2408.04917v2 宣布类型: 替换-交叉摘要: 主动学习（AL）旨在通过有选择地收集高信息量的数据来增强模型性能，从而最小化注释成本。然而，在实际场景中，未标注数据可能包含离分布（OOD，Out-of-Distribution）样本，这些样本不用于训练，如果错误选择数据，则会导致注释成本的浪费。因此，为了让主动学习在实际应用中可行，不仅要考虑未标注样本的信息量，还必须考虑其纯度来确定它们是否属于在分布（ID，In-Distribution）。最近的研究在这些假设下应用了主动学习，但由于信息量和纯度之间的权衡，以及对OOD样本的高依赖性，仍存在挑战。这些问题导致收集OOD样本，从而造成显著的注释成本浪费。为了解决这些挑战，我们提出了一种新的查询策略—VLPure-AL，它在减少对OOD样本的依赖的同时，最小化成本损失。VLPure-AL 依次评估数据的纯度和信息量。首先，它利用预训练的视觉-语言模型，通过利用ID数据的语义和视觉信息高精度地检测和排除OOD数据。其次，它从剩余的ID数据中选择高信息量的数据，然后由人类专家对选定样本进行标注。在具有各种开放集条件的数据集上的实验结果表明，VLPure-AL 在所有场景中均能实现最低的成本损失和最高的性能。代码可在 https://github.com/DSBA-Lab/OpenAL 获取。