摘要
arXiv:2502.00305v1 类别: cross
摘要: 冰冷启动主动学习(CSAL)从未标记的数据集中选择有价值的实例进行人工注释。它以较低的注释成本为标签稀缺的文本分类提供高质量的数据。然而,现有的CSAL方法忽视了弱类别和困难的代表性示例,导致学习偏向。为了解决这些问题,本文提出了一种新的双重多样性增强和不确定性感知(DEUCE)框架来实现CSAL。具体而言,DEUCE利用预训练的语言模型(PLM)来高效地提取文本表示、类别预测和预测不确定性。然后,它构造了一个双重邻居图(DNG),结合了文本多样性和类别多样性的信息,确保数据分布平衡。进一步通过基于密度的聚类传播不确定性信息,以选择困难的代表性实例。DEUCE通过双重多样性和信息性较好地选择了类别平衡和困难的代表性数据。在六个NLP数据集上的实验表明,DEUCE具有优越性和高效性。