摘要
arXiv:2503.23204v1 类别: 交叉学科
摘要:多语言自然语言生成(NLG)由于低资源语言缺乏训练数据而具有挑战性。然而,一些低资源语言在全球范围内有数千万的使用者,因此改善这些语言的NLG工具变得非常重要。表到文本的NLG是对模型推理能力的优秀衡量标准,但在多语言环境下非常具有挑战性。系统输出往往无法与源表中的数据相关联或忠实反映。类似于问题-答案(QA)蓝图的中间计划技术在摘要任务中提高了可追溯性。本研究探讨了QA蓝图是否能使多语言表到文本输出更忠实于输入表。本文扩大了包含非洲语言的挑战性多语言表到文本数据集TaTA,并加入了QA蓝图。然后对带有和不带有蓝图的序列到序列语言模型进行了微调。结果显示,对于仅在英语示例上进行微调和评估的模型,QA蓝图可以提高性能,但在多语言环境下却没有显示出增益。这主要是因为自动翻译蓝图时的准确性问题,特别是在生成训练数据时,并且模型未能紧密依赖它们生成的蓝图。进行了详细的分析以探讨为何会出现这种挑战。