摘要
近年来,研究人员致力于利用多语言预训练语言模型 (mPLMs) 来扩展跨多种语言的语义解析 (SP),而无需大量标注数据。然而,实现语义解析的零样本跨语言迁移仍然具有挑战性,导致源语言和目标语言之间存在性能差距。在本研究中,我们提出了跨语言反向解析 (CBP),这是一种新颖的数据增强方法,旨在增强语义解析的跨语言迁移。CBP 利用 mPLMs 的表示几何结构,从源语义表示中合成目标语言的语句。我们的方法通过仅利用源语言中的标注数据和单语语料库,在具有挑战性的零资源环境中有效地执行跨语言数据增强。在两个跨语言语义解析基准数据集 (Mschema2QA 和 Xspider) 上进行的大量实验表明,CBP 在目标语言上带来了显著的提升。对合成语句的进一步分析表明,我们的方法成功地生成了具有高槽值对齐率的,同时保留了语义完整性的目标语言语句。我们的代码和数据已在 https://github.com/deokhk/CBP 上公开发布。