LLM2D
Instagram上的猴痘叙事:用于情感、仇恨言论和焦虑分析的标注多语言Instagram帖子数据集
Mpox Narrative on Instagram: A Labeled Multilingual Dataset of Instagram Posts on Mpox for Sentiment, Hate Speech, and Anxiety Analysis
发布日期: 9/20/2024
arXiv ID: oai:arXiv.org:2409.05292v3

摘要

arXiv:2409.05292v3 公告类型: 替换-交叉 摘要: 当前,全球正经历一场猴痘疫情的爆发,世界卫生组织已将其宣布为国际关注的公共卫生紧急事件。此前,与社交媒体挖掘相关的研究并未专注于开发关于猴痘疫情的Instagram帖子数据集。本文旨在填补这一研究空白,并为此领域做出两项科学贡献。首先,本文介绍了一个包含60,127条关于猴痘的Instagram帖子的多语言数据集,这些帖子发布于2022年7月23日至2024年9月5日之间。该数据集可通过https://dx.doi.org/10.21227/7fvc-y093获取,涵盖了52种语言的Instagram帖子。对于每个帖子,数据集分别列出了帖子ID、帖子描述、发布日期、语言以及帖子的翻译版本(使用Google Translate API翻译成英文)。在开发此数据集后,进行了情感分析、仇恨言论检测和焦虑或压力检测。这一过程包括将每个帖子分类为(i)情感类别之一,即恐惧、惊讶、喜悦、悲伤、愤怒、厌恶或中性,(ii)仇恨或非仇恨,以及(iii)检测到焦虑/压力或未检测到焦虑/压力。这些结果作为数据集中的独立属性呈现。其次,本文展示了进行情感分析、仇恨言论分析和焦虑或压力分析的结果。情感类别的变化——恐惧、惊讶、喜悦、悲伤、愤怒、厌恶和中性——分别为27.95%、2.57%、8.69%、5.94%、2.69%、1.53%和50.64%。在仇恨言论检测方面,95.75%的帖子不包含仇恨言论,而剩余的4.25%的帖子包含仇恨言论。最后,72.05%的帖子未显示任何焦虑/压力,而剩余的27.95%的帖子表现出某种形式的焦虑/压力。