LLM2D

摘要

arXiv:2408.10604v2 宣告类型: replace-cross 摘要: 大多数现有的问答数据集（QuADs）主要关注高资源语言中的基于事实的短语境问答。然而，这类数据集在低资源语言中的应用范围仍然有限，只有少数几项工作专注于基于事实的QuADs，并且没有任何关于非基于事实的QuADs的工作。因此，本文提出了MuNfQuAD，这是一个包含非基于事实的问答的多语言QuAD数据集。它利用来自BBC新闻文章的疑问性副标题作为问题，并利用相应的段落作为银标签答案。该数据集包括超过578,000个跨38种语言的问答对，涵盖了多种低资源语言，并且是迄今为止最大的多语言问答数据集。基于对MuNfQuAD中790个问答对（金标准集）的手动注释，我们发现98%的问题可以用其对应的银标签答案来回答。我们微调的Answer Paragraph Selection（APS）模型优于基线模型。APS模型在MuNfQuAD测试集和金标准集上的准确率分别为80%和72%，宏F1分别为72%和66%。此外，即使在银标签上进行了微调，APS模型也能有效地推广到金标准集中的一种特定语言。我们还观察到，微调的APS模型对于减少问题的上下文是有益的。这些发现表明，该资源将为问答研究社区做出有价值的贡献。