LLM2D
基于狄利克雷分布的开放集标注粗粒度到细粒度示例选择
Dirichlet-Based Coarse-to-Fine Example Selection For Open-Set Annotation
作者: Ye-Wen Wang, Chen-Chen Zong, Ming-Kun Xie, Sheng-Jun Huang
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2409.17607v1

摘要

主动学习 (AL) 通过从未标记数据中选择最有价值的示例取得了巨大成功。然而,在涉及开放集噪声的真实场景中,它们通常会退化,这被研究为开放集标注 (OSA)。在本文中,我们将退化归因于基于 softmax 的平移不变性导致的不可靠预测,并相应地提出了一种基于狄利克雷的粗到细示例选择 (DCFS) 策略。我们的方法引入了基于单纯形的证据深度学习 (EDL) 来打破平移不变性,并通过同时考虑基于证据的数据和分布不确定性来区分已知类和未知类。此外,通过两个分类器头的模型差异识别出难的已知类示例,我们分别放大和减轻未知类和已知类的模型差异。最后,我们将差异与不确定性结合起来形成一个两阶段策略,从已知类中选择信息量最大的示例。在各种开放性比率数据集上的大量实验表明,DCFS 实现了最先进的性能。