Zero-Shot Cross-Lingual NER Using Phonemic Representations for Low-Resource Languages
作者: Jimin Sohn, Haeji Jung, Alex Cheng, Jooeon Kang, Yilin Du, David R. Mortensen
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2406.16030v2
摘要
现有的零样本跨语言命名实体识别方法需要大量目标语言的先验知识,这对于资源匮乏的语言来说是不切实际的。本文提出了一种基于国际音标(IPA)的音素表示的命名实体识别新方法,以弥合不同语言表示之间的差距。实验表明,该方法在极端资源匮乏的语言中显著优于基线模型,平均 F1 分数最高(46.38%),标准差最低(12.67%),特别是在非拉丁字母脚本中展现出其鲁棒性。代码已发布在 https://github.com/Gabriel819/zeroshot_ner.git。