LLM2D

摘要

arXiv:2409.05292v3 公告类型: 替换-交叉摘要: 当前，全球正经历一场猴痘疫情的爆发，世界卫生组织已将其宣布为国际关注的公共卫生紧急事件。此前，与社交媒体挖掘相关的研究并未专注于开发关于猴痘疫情的Instagram帖子数据集。本文旨在填补这一研究空白，并为此领域做出两项科学贡献。首先，本文介绍了一个包含60,127条关于猴痘的Instagram帖子的多语言数据集，这些帖子发布于2022年7月23日至2024年9月5日之间。该数据集可通过https://dx.doi.org/10.21227/7fvc-y093获取，涵盖了52种语言的Instagram帖子。对于每个帖子，数据集分别列出了帖子ID、帖子描述、发布日期、语言以及帖子的翻译版本（使用Google Translate API翻译成英文）。在开发此数据集后，进行了情感分析、仇恨言论检测和焦虑或压力检测。这一过程包括将每个帖子分类为（i）情感类别之一，即恐惧、惊讶、喜悦、悲伤、愤怒、厌恶或中性，（ii）仇恨或非仇恨，以及（iii）检测到焦虑/压力或未检测到焦虑/压力。这些结果作为数据集中的独立属性呈现。其次，本文展示了进行情感分析、仇恨言论分析和焦虑或压力分析的结果。情感类别的变化——恐惧、惊讶、喜悦、悲伤、愤怒、厌恶和中性——分别为27.95%、2.57%、8.69%、5.94%、2.69%、1.53%和50.64%。在仇恨言论检测方面，95.75%的帖子不包含仇恨言论，而剩余的4.25%的帖子包含仇恨言论。最后，72.05%的帖子未显示任何焦虑/压力，而剩余的27.95%的帖子表现出某种形式的焦虑/压力。