摘要
arXiv:2502.13278v1 交叉公告类型: cross
摘要: 表情符号在当今的数字世界中被频繁使用,用于表达从简单到复杂的各种想法,因此也被用于情感分析和定向营销活动中。在这项工作中,我们对推特进行了情感分析,并且在Kaggle上使用了表情符号数据集。由于推特是句子,我们使用了通用句子编码器(USE)和双向Transformer编码表示(SBERT)端到端的句子嵌入模型来生成嵌入,这些嵌入用于训练标准的全连接神经网络(NN)和LSTM NN模型。我们观察到,两种模型的文本分类准确率几乎相同,约为98%。相反,当验证集使用训练集中不存在的表情符号构建时,两种模型的准确率急剧下降至70%。此外,我们还使用分布式训练方法而不是传统的单线程模型来训练模型,以提高可扩展性。使用分布式训练方法,我们能够在不牺牲准确性的前提下将运行时间缩短约15%。最后,作为可解释AI的一部分,我们使用Shap算法来解释模型行为并检查给定特征集上的模型偏见。