摘要
arXiv:2412.08587v2 文本分类类型: 替换交叉
摘要:编码器-only模型(如BERT、RoBERTa)和大型语言模型(LLMs,如Llama3)在文本分类任务中得到了广泛的应用。然而,在文本分类任务中,特别是在微调涉及的情况下,对基于编码器的模型和LLMs的性能进行系统比较的研究仍然不足。本研究采用了多种不同规模和架构的模型和方法,包括微调和预训练方法。我们首先在20 Newsgroups(20NG)和MASSIVE数据集上评估了这些LLMs的性能,将它们与仅编码器的RoBERTa模型进行了比较。此外,我们通过将多个分类任务(包括意图检测和槽填充任务)同时纳入一个模型中,探索了这两种模型类型的多任务能力,利用了两个数据集的数据。结果显示,全微调的Llama3-70B模型在各种分类任务和数据集上的性能都优于RoBERTa-large和其他解码器LLMs。此外,合并的多任务全微调LLMs在两个数据集的两个任务上的性能与双模型设置相当。总体而言,我们的研究为仅编码器和LLM模型提供了全面的文本分类基准,并展示了如何结合两个或更多全微调的解码器LLMs以减少延迟并保持相同的性能。