LLM2D

摘要

arXiv:2503.23204v1 类别: 交叉学科摘要：多语言自然语言生成（NLG）由于低资源语言缺乏训练数据而具有挑战性。然而，一些低资源语言在全球范围内有数千万的使用者，因此改善这些语言的NLG工具变得非常重要。表到文本的NLG是对模型推理能力的优秀衡量标准，但在多语言环境下非常具有挑战性。系统输出往往无法与源表中的数据相关联或忠实反映。类似于问题-答案（QA）蓝图的中间计划技术在摘要任务中提高了可追溯性。本研究探讨了QA蓝图是否能使多语言表到文本输出更忠实于输入表。本文扩大了包含非洲语言的挑战性多语言表到文本数据集TaTA，并加入了QA蓝图。然后对带有和不带有蓝图的序列到序列语言模型进行了微调。结果显示，对于仅在英语示例上进行微调和评估的模型，QA蓝图可以提高性能，但在多语言环境下却没有显示出增益。这主要是因为自动翻译蓝图时的准确性问题，特别是在生成训练数据时，并且模型未能紧密依赖它们生成的蓝图。进行了详细的分析以探讨为何会出现这种挑战。