LLM2D

摘要

arXiv:2505.00013v1 交叉类型摘要：背景具有社会影响的应用，如社交媒体监控和客户反馈分析，需要对日语文本进行准确的情感识别，但资源稀缺性和类别不平衡阻碍了模型性能。目标本研究旨在构建一个高精度模型，用于预测日文句子中八种普洛奇克情感（快乐、期待等）的存在或不存在情况。方法我们使用WRIME语料库将读者平均强度评分转换为二元标签，并对四种预训练语言模型（BERT、RoBERTa、DeBERTa-v3-base、DeBERTa-v3-large）进行微调。此外，我们还评估了两个大型语言模型（TinySwallow-1.5B-Instruct和ChatGPT-4o）。准确率和F1-score作为评估指标。结果 DeBERTa-v3-large在平均准确率（0.860）和F1-score（0.662）方面表现最佳，超越其他所有模型。它在高频情感（如快乐、期待等）和低频情感（如愤怒、信任等）的F1-score上表现出色。大型语言模型表现滞后，ChatGPT-4o和TinySwallow-1.5B-Instruct的平均F1-score分别为0.527和0.292。结论微调后的DeBERTa-v3-large模型当前为日语二元情感分类提供了最可靠的解决方案。我们发布该模型为pip可安装包（pip install deberta-emotion-predictor）。未来的工作应增加稀有情感的数据、减少模型大小，并探索提示工程以提高大型语言模型的性能。该论文已被提交至《新一代计算》期刊进行可能的出版审查。