摘要
arXiv:2505.00021v1 宣告类型: cross
摘要: 分类任务往往受到数据分布不平衡的影响,这在食品危害检测中由于严重类别不平衡、较短和未结构化的文本以及重叠的语义类别,提出了巨大的挑战。本文中,我们为我们提交给SemEval-2025任务9:食品危害检测的系统进行了介绍,通过应用数据增强技术来改善分类性能,从而解决了这些问题。我们使用基于Transformer的模型BERT和RoBERTa作为骨干分类器,并探索了各种数据平衡策略,包括随机过采样、简易数据增强(EDA)和焦点损失。我们的实验表明,简易数据增强(EDA)有效地缓解了类别不平衡的问题,显著提高了准确率和F1分数。此外,将焦点损失与过采样和简易数据增强相结合,进一步提高了模型的稳健性,特别是在难以分类的示例方面。这些发现为开发更有效的基于NLP的分类模型用于食品危害检测做出了贡献。