摘要
在当今全球化的背景下,新闻摘要面临着来自不同来源的多语言内容和各种观点的泛滥,这使得新闻摘要任务变得十分艰巨。然而,现有的研究往往忽略了这种现实场景,而倾向于只关注单语言或单文档任务。为了弥合这一差距,我们旨在将多语言、跨语言和多文档摘要统一到一个新的任务中,即 MCMS,该任务将现实世界中的所有需求整合到一起。然而,缺乏基准阻碍了研究人员充分研究这一宝贵问题。为了解决这一问题,我们精心构建了 GLOBESUMM 数据集,首先收集了大量多语言新闻报道,并将它们重组为以事件为中心的格式。此外,我们引入了协议引导提示方法,以实现高质量且经济高效的参考标注。在 MCMS 中,我们还强调了新闻报道之间冲突的挑战,除了冗余和遗漏问题之外,进一步提高了 GLOBESUMM 的复杂性。通过广泛的实验分析,我们验证了数据集的质量,并阐明了该任务的内在挑战。我们坚信,GLOBESUMM 凭借其具有挑战性的特性,将极大地促进多语言社区和大型语言模型的评估。