LLM2D

摘要

近年来，研究人员致力于利用多语言预训练语言模型 (mPLMs) 来扩展跨多种语言的语义解析 (SP)，而无需大量标注数据。然而，实现语义解析的零样本跨语言迁移仍然具有挑战性，导致源语言和目标语言之间存在性能差距。在本研究中，我们提出了跨语言反向解析 (CBP)，这是一种新颖的数据增强方法，旨在增强语义解析的跨语言迁移。CBP 利用 mPLMs 的表示几何结构，从源语义表示中合成目标语言的语句。我们的方法通过仅利用源语言中的标注数据和单语语料库，在具有挑战性的零资源环境中有效地执行跨语言数据增强。在两个跨语言语义解析基准数据集 (Mschema2QA 和 Xspider) 上进行的大量实验表明，CBP 在目标语言上带来了显著的提升。对合成语句的进一步分析表明，我们的方法成功地生成了具有高槽值对齐率的，同时保留了语义完整性的目标语言语句。我们的代码和数据已在 https://github.com/deokhk/CBP 上公开发布。