LLM2D

摘要

arXiv:2505.00021v1 宣告类型: cross 摘要: 分类任务往往受到数据分布不平衡的影响，这在食品危害检测中由于严重类别不平衡、较短和未结构化的文本以及重叠的语义类别，提出了巨大的挑战。本文中，我们为我们提交给SemEval-2025任务9:食品危害检测的系统进行了介绍，通过应用数据增强技术来改善分类性能，从而解决了这些问题。我们使用基于Transformer的模型BERT和RoBERTa作为骨干分类器，并探索了各种数据平衡策略，包括随机过采样、简易数据增强(EDA)和焦点损失。我们的实验表明，简易数据增强(EDA)有效地缓解了类别不平衡的问题，显著提高了准确率和F1分数。此外，将焦点损失与过采样和简易数据增强相结合，进一步提高了模型的稳健性，特别是在难以分类的示例方面。这些发现为开发更有效的基于NLP的分类模型用于食品危害检测做出了贡献。