摘要
## 针对猴痘疫情的 Instagram 帖子多语言数据集:情感分析、仇恨言论检测和焦虑/压力检测
**摘要:** 当前全球正经历猴痘疫情爆发,世界卫生组织已将其宣布为国际关注的突发公共卫生事件。此前,尚无关于社交媒体挖掘的研究专注于开发关于猴痘疫情的 Instagram 帖子数据集。本文提出的工作旨在填补这一研究空白,并为此领域做出两项科学贡献。首先,它提供了一个包含 60,127 条关于猴痘的 Instagram 帖子的多语言数据集,这些帖子发布于 2022 年 7 月 23 日至 2024 年 9 月 5 日之间。该数据集可在 https://dx.doi.org/10.21227/7fvc-y093 获取,包含 52 种语言的关于猴痘的 Instagram 帖子。对于每条帖子,帖子 ID、帖子描述、发布时间、语言以及帖子的翻译版本(使用 Google Translate API 翻译成英语)都被作为单独的属性呈现。在开发完该数据集之后,进行了情感分析、仇恨言论检测和焦虑或压力检测。该过程包括将每条帖子分类为 (i) 情感类别之一,即恐惧、惊讶、喜悦、悲伤、愤怒、厌恶或中性,(ii) 仇恨或非仇恨,以及 (iii) 检测到焦虑/压力或未检测到焦虑/压力。这些结果作为单独的属性呈现。其次,本文展示了情感分析、仇恨言论分析和焦虑或压力分析的结果。观察到情感类别 - 恐惧、惊讶、喜悦、悲伤、愤怒、厌恶和中性的变化分别为 27.95%、2.57%、8.69%、5.94%、2.69%、1.53% 和 50.64%。在仇恨言论检测方面,95.75% 的帖子不包含仇恨,其余 4.25% 的帖子包含仇恨。最后,72.05% 的帖子没有表现出任何焦虑/压力,而剩下的 27.95% 的帖子则表现出某种形式的焦虑/压力。