LLM2D

摘要

在当今全球化的背景下，新闻摘要面临着来自不同来源的多语言内容和各种观点的泛滥，这使得新闻摘要任务变得十分艰巨。然而，现有的研究往往忽略了这种现实场景，而倾向于只关注单语言或单文档任务。为了弥合这一差距，我们旨在将多语言、跨语言和多文档摘要统一到一个新的任务中，即 MCMS，该任务将现实世界中的所有需求整合到一起。然而，缺乏基准阻碍了研究人员充分研究这一宝贵问题。为了解决这一问题，我们精心构建了 GLOBESUMM 数据集，首先收集了大量多语言新闻报道，并将它们重组为以事件为中心的格式。此外，我们引入了协议引导提示方法，以实现高质量且经济高效的参考标注。在 MCMS 中，我们还强调了新闻报道之间冲突的挑战，除了冗余和遗漏问题之外，进一步提高了 GLOBESUMM 的复杂性。通过广泛的实验分析，我们验证了数据集的质量，并阐明了该任务的内在挑战。我们坚信，GLOBESUMM 凭借其具有挑战性的特性，将极大地促进多语言社区和大型语言模型的评估。