LLM2D
LexC-Gen:利用大型语言模型和双语词典生成极低资源语言数据
LexC-Gen: Generating Data for Extremely Low-Resource Languages with Large Language Models and Bilingual Lexicons
作者: Zheng-Xin Yong, Cristina Menghini, Stephen H. Bach
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2402.14086v2

摘要

低资源语言的数据稀缺问题可以通过使用双语词典,从高资源语言中标记的任务数据进行词对词翻译来解决。然而,双语词典在与任务数据词汇重叠方面往往有限,导致翻译覆盖率低和词典利用率低。我们提出了词典条件数据生成 LexC-Gen,一种能够大规模生成低资源语言分类任务数据的方法。具体来说,LexC-Gen 首先使用双语词典中的高资源语言词汇生成与词典兼容的任务数据,然后通过词语翻译将其翻译成低资源语言。在 17 种极低资源语言中,LexC-Gen 生成的 数据与专家翻译的黄金数据具有竞争力,并且在情感分析和主题分类任务中,与现有的基于词典的词语翻译方法相比,平均提高了 5.6 和 8.9 个百分点。通过消融研究,我们表明,对双语词典的条件化是 LexC-Gen 的关键组成部分。LexC-Gen 可作为一种潜在的解决方案,缩小开源多语言模型(如 BLOOMZ 和 Aya-101)与 GPT-4o 等最先进的商业模型在低资源语言任务上的性能差距。