摘要
arXiv:2502.06648v1 类型: 多语言
摘要: 在本文中,我们介绍了一个涵盖了2021年东京奥运会的多语言新闻文章数据集。共收集了10,940篇来自1,918家不同出版商的新闻文章,涵盖了2021年奥运会的1,350个子赛事,并于2021年7月1日至8月14日之间发布。这些文章使用了九种不同的语言家族和书写系统进行撰写。为了创建这个数据集,首先通过一个收集和分析新闻文章的服务获取原始新闻文章。然后,使用在线聚类算法将文章分组,每组包含报道同一子赛事的文章。最后,对这些组进行了人工标注和评估。开发此数据集的目的是为了提供评估多语言新闻聚类算法性能的资源,目前可用的数据集相对有限。此外,它还可以用于从不同角度分析2021年东京奥运会的动态和事件。数据集以CSV格式提供,并可以从CLARIN.SI存储库访问。