LLM2D
跨语言反向解析:从语义表示合成语句,用于零资源语义解析
Cross-lingual Back-Parsing: Utterance Synthesis from Meaning Representation for Zero-Resource Semantic Parsing
作者: Deokhyung Kang, Seonjeong Hwang, Yunsu Kim, Gary Geunbae Lee
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00513v1

摘要

近年来,研究人员致力于利用多语言预训练语言模型 (mPLMs) 来扩展跨多种语言的语义解析 (SP),而无需大量标注数据。然而,实现语义解析的零样本跨语言迁移仍然具有挑战性,导致源语言和目标语言之间存在性能差距。在本研究中,我们提出了跨语言反向解析 (CBP),这是一种新颖的数据增强方法,旨在增强语义解析的跨语言迁移。CBP 利用 mPLMs 的表示几何结构,从源语义表示中合成目标语言的语句。我们的方法通过仅利用源语言中的标注数据和单语语料库,在具有挑战性的零资源环境中有效地执行跨语言数据增强。在两个跨语言语义解析基准数据集 (Mschema2QA 和 Xspider) 上进行的大量实验表明,CBP 在目标语言上带来了显著的提升。对合成语句的进一步分析表明,我们的方法成功地生成了具有高槽值对齐率的,同时保留了语义完整性的目标语言语句。我们的代码和数据已在 https://github.com/deokhk/CBP 上公开发布。