LLM2D
在使用问题-答案蓝图进行多语言表格到文本生成中实现可追溯性的挑战
The Challenge of Achieving Attributability in Multilingual Table-to-Text Generation with Question-Answer Blueprints
作者: Aden Haussmann
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23204v1

摘要

arXiv:2503.23204v1 类别: 交叉学科 摘要:多语言自然语言生成(NLG)由于低资源语言缺乏训练数据而具有挑战性。然而,一些低资源语言在全球范围内有数千万的使用者,因此改善这些语言的NLG工具变得非常重要。表到文本的NLG是对模型推理能力的优秀衡量标准,但在多语言环境下非常具有挑战性。系统输出往往无法与源表中的数据相关联或忠实反映。类似于问题-答案(QA)蓝图的中间计划技术在摘要任务中提高了可追溯性。本研究探讨了QA蓝图是否能使多语言表到文本输出更忠实于输入表。本文扩大了包含非洲语言的挑战性多语言表到文本数据集TaTA,并加入了QA蓝图。然后对带有和不带有蓝图的序列到序列语言模型进行了微调。结果显示,对于仅在英语示例上进行微调和评估的模型,QA蓝图可以提高性能,但在多语言环境下却没有显示出增益。这主要是因为自动翻译蓝图时的准确性问题,特别是在生成训练数据时,并且模型未能紧密依赖它们生成的蓝图。进行了详细的分析以探讨为何会出现这种挑战。