LLM2D

摘要

arXiv:2412.08587v2 文本分类类型: 替换交叉摘要：编码器-only模型（如BERT、RoBERTa）和大型语言模型（LLMs，如Llama3）在文本分类任务中得到了广泛的应用。然而，在文本分类任务中，特别是在微调涉及的情况下，对基于编码器的模型和LLMs的性能进行系统比较的研究仍然不足。本研究采用了多种不同规模和架构的模型和方法，包括微调和预训练方法。我们首先在20 Newsgroups（20NG）和MASSIVE数据集上评估了这些LLMs的性能，将它们与仅编码器的RoBERTa模型进行了比较。此外，我们通过将多个分类任务（包括意图检测和槽填充任务）同时纳入一个模型中，探索了这两种模型类型的多任务能力，利用了两个数据集的数据。结果显示，全微调的Llama3-70B模型在各种分类任务和数据集上的性能都优于RoBERTa-large和其他解码器LLMs。此外，合并的多任务全微调LLMs在两个数据集的两个任务上的性能与双模型设置相当。总体而言，我们的研究为仅编码器和LLM模型提供了全面的文本分类基准，并展示了如何结合两个或更多全微调的解码器LLMs以减少延迟并保持相同的性能。