LLM2D
使用 RoBERTa 和 DeBERTa 在日语情感分类中的性能评价
Performance Evaluation of Emotion Classification in Japanese Using RoBERTa and DeBERTa
作者: Yoichi Takenaka
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2505.00013v1

摘要

arXiv:2505.00013v1 交叉类型 摘要:背景 具有社会影响的应用,如社交媒体监控和客户反馈分析,需要对日语文本进行准确的情感识别,但资源稀缺性和类别不平衡阻碍了模型性能。 目标 本研究旨在构建一个高精度模型,用于预测日文句子中八种普洛奇克情感(快乐、期待等)的存在或不存在情况。 方法 我们使用WRIME语料库将读者平均强度评分转换为二元标签,并对四种预训练语言模型(BERT、RoBERTa、DeBERTa-v3-base、DeBERTa-v3-large)进行微调。此外,我们还评估了两个大型语言模型(TinySwallow-1.5B-Instruct和ChatGPT-4o)。准确率和F1-score作为评估指标。 结果 DeBERTa-v3-large在平均准确率(0.860)和F1-score(0.662)方面表现最佳,超越其他所有模型。它在高频情感(如快乐、期待等)和低频情感(如愤怒、信任等)的F1-score上表现出色。大型语言模型表现滞后,ChatGPT-4o和TinySwallow-1.5B-Instruct的平均F1-score分别为0.527和0.292。 结论 微调后的DeBERTa-v3-large模型当前为日语二元情感分类提供了最可靠的解决方案。我们发布该模型为pip可安装包(pip install deberta-emotion-predictor)。未来的工作应增加稀有情感的数据、减少模型大小,并探索提示工程以提高大型语言模型的性能。 该论文已被提交至《新一代计算》期刊进行可能的出版审查。