LLM2D
Ustnlp16在SemEval-2025任务9中:通过处理不平衡和使用焦点损失提高模型性能
Ustnlp16 at SemEval-2025 Task 9: Improving Model Performance through Imbalance Handling and Focal Loss
作者: Zhuoang Cai, Zhenghao Li, Yang Liu, Liyuan Guo, Yangqiu Song
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2505.00021v1

摘要

arXiv:2505.00021v1 宣告类型: cross 摘要: 分类任务往往受到数据分布不平衡的影响,这在食品危害检测中由于严重类别不平衡、较短和未结构化的文本以及重叠的语义类别,提出了巨大的挑战。本文中,我们为我们提交给SemEval-2025任务9:食品危害检测的系统进行了介绍,通过应用数据增强技术来改善分类性能,从而解决了这些问题。我们使用基于Transformer的模型BERT和RoBERTa作为骨干分类器,并探索了各种数据平衡策略,包括随机过采样、简易数据增强(EDA)和焦点损失。我们的实验表明,简易数据增强(EDA)有效地缓解了类别不平衡的问题,显著提高了准确率和F1分数。此外,将焦点损失与过采样和简易数据增强相结合,进一步提高了模型的稳健性,特别是在难以分类的示例方面。这些发现为开发更有效的基于NLP的分类模型用于食品危害检测做出了贡献。