LLM2D
Instagram 上五年新冠疫情话语分析:一个包含超过五十万条帖子的多语言情感分析标注数据集
Five Years of COVID-19 Discourse on Instagram: A Labeled Instagram Dataset of Over Half a Million Posts for Multilingual Sentiment Analysis
作者: Nirmalya Thakur
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.03293v1

摘要

本文针对 Instagram 上与 COVID-19 相关的帖子进行了挖掘和分析,提出了三个科学贡献。首先,本文构建了一个包含 500,153 条 Instagram 帖子的多语言数据集,涵盖了 2020 年 1 月至 2024 年 9 月期间发布的有关 COVID-19 的帖子。该数据集包含 161 种不同语言的 Instagram 帖子以及 535,021 个不同的标签,并已公开发布在 https://dx.doi.org/10.21227/d46p-v480。在构建数据集后,本文进行了多语言情感分析,将每条帖子分类为正面、负面或中性。情感分析的结果作为单独的属性包含在该数据集中。其次,本文展示了 2020 年至 2024 年间每年进行的情感分析结果。研究发现,自疫情爆发以来,Instagram 上与 COVID-19 相关的情感趋势发生了显著变化。例如,在 2020 年至 2024 年期间,正面情感比例从 38.35% 下降至 28.69%,而中性情感比例从 44.19% 上升至 58.34%。最后,本文还展示了语言特异性情感分析的结果。该分析突出了 Instagram 上不同语言发布的帖子之间情感趋势的相似之处和差异。例如,在所有英文帖子中,49.68% 为正面,14.84% 为负面,35.48% 为中性。相比之下,在所有印地语帖子中,4.40% 为正面,57.04% 为负面,38.56% 为中性,反映出这两种语言之间情感分布的显著差异。