LLM2D
自动文本分类的全面基准测试:从传统方法到大规模语言模型
A thorough benchmark of automatic text classification: From traditional approaches to large language models
作者: Washington Cunha, Leonardo Rocha, Marcos Andr\'e Gon\c{c}alves
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2504.01930v1

摘要

arXiv:2504.01930v1 宣告类型:交叉 摘要:自动文本分类(ATC)在过去十年中经历了显著的进步,这在最近的小型和大型语言模型(SLMs 和 LLMs)以及基于 Transformer 架构的应用中得到了最佳体现。尽管最近在效果上有所改进,但文献中仍然缺乏一项全面的成本效益分析,以探讨这些最新方法的有效性提高是否能够弥补它们与传统文本分类方法如 SVMs 和 Logistic Regression 相比更高的成本。在此背景下,本文的主要贡献有两个方面:(i)我们对十二种传统的和最新的自动文本分类解决方案,包括五种开放的大型语言模型,进行了科学严谨的比较分析;(ii)一个大规模基准,包括22个数据集,涵盖情感分析和主题分类,这些数据集根据折叠交叉验证方法划分为训练、验证和测试集,附带有文档和代码。代码、数据和文档的发布使社区能够复制实验并以更科学的方法推进该领域。我们的比较实验结果表明,大型语言模型在效果方面优于传统方法(平均最高可达26%-7.1%)和小型语言模型(平均最高可达4.9%-1.9%)。然而,由于微调带来的显著更高的计算成本,大型语言模型比传统方法快590倍和小型语言模型快8.5倍。结果建议以下建议:(1)对于需要最佳效果并且可以承担成本的广泛应用,使用大型语言模型;(2)对于资源受限的应用或无法承担大规模语言模型调优成本的应用,使用传统的 Logistic Regression 和 SVM 方法;(3)对于接近最优效果-效率权衡的应用,使用如 Roberta 这样的小型语言模型。