LLM2D

摘要

arXiv:2504.19021v1 Announce Type: cross 摘要：高效文本分类对于处理不断增加的学术出版物至关重要。本研究探讨了在Web of Science（WoS-46985）数据集上对预训练语言模型（PLMs）进行微调，包括BERT、SciBERT、BioBERT和BlueBERT，以用于科学研究文本分类的方法。为了提高性能，我们通过在WoS数据库中执行七个有针对性的查询来扩充数据集，每类检索1,000篇文章，使其与WoS-46985的主要类别对齐。PLMs为这些未标记数据预测标签，通过硬投票策略结合预测以提高准确性和信心。通过扩展数据集进行微调，并使用动态学习率和早期停止显著提升了分类准确性，尤其是在专门领域。SciBERT和BioBERT等领域特定模型始终优于BERT等通用模型。这些发现强调了数据集扩充、推断驱动的标签预测、硬投票和微调技术在创建稳健和可扩展的自动化学术文本分类解决方案方面的有效性。