LLM2D

摘要

主动学习是一种迭代式标注过程，用于在没有标注数据的情况下获得一小部分标注子集，从而能够训练模型用于监督任务，例如文本分类。尽管近年来由于预训练语言模型的改进，主动学习取得了重大进展，但未标注数据中经常被忽视的部分仍存在未开发的潜力，尽管其数量远大于通常很小的标注数据集。在这项工作中，我们研究了自训练（一种使用模型为未标注数据获取伪标签的半监督方法）如何用于提高文本分类主动学习的效率。在对四种先前自训练方法进行全面复现的基础上（其中一些方法首次在主动学习或自然语言处理的背景下进行评估），我们引入了 HAST，一种新的有效自训练策略，并在四个文本分类基准上对其进行了评估。我们的结果表明，它优于已复现的自训练方法，并在三个数据集上实现了与先前实验相当的分类结果，而仅使用 25% 的数据。代码可在 https://github.com/chschroeder/self-training-for-sample-efficient-active-learning 公开获取。