LLM2D
基于预训练语言模型的文本分类样本高效主动学习的自训练方法
Self-Training for Sample-Efficient Active Learning for Text Classification with Pre-Trained Language Models
作者: Christopher Schr\"oder, Gerhard Heyer
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2406.09206v2

摘要

主动学习是一种迭代式标注过程,用于在没有标注数据的情况下获得一小部分标注子集,从而能够训练模型用于监督任务,例如文本分类。尽管近年来由于预训练语言模型的改进,主动学习取得了重大进展,但未标注数据中经常被忽视的部分仍存在未开发的潜力,尽管其数量远大于通常很小的标注数据集。在这项工作中,我们研究了自训练(一种使用模型为未标注数据获取伪标签的半监督方法)如何用于提高文本分类主动学习的效率。在对四种先前自训练方法进行全面复现的基础上(其中一些方法首次在主动学习或自然语言处理的背景下进行评估),我们引入了 HAST,一种新的有效自训练策略,并在四个文本分类基准上对其进行了评估。我们的结果表明,它优于已复现的自训练方法,并在三个数据集上实现了与先前实验相当的分类结果,而仅使用 25% 的数据。代码可在 https://github.com/chschroeder/self-training-for-sample-efficient-active-learning 公开获取。