LLM2D

摘要

低资源语言的数据稀缺问题可以通过使用双语词典，从高资源语言中标记的任务数据进行词对词翻译来解决。然而，双语词典在与任务数据词汇重叠方面往往有限，导致翻译覆盖率低和词典利用率低。我们提出了词典条件数据生成 LexC-Gen，一种能够大规模生成低资源语言分类任务数据的方法。具体来说，LexC-Gen 首先使用双语词典中的高资源语言词汇生成与词典兼容的任务数据，然后通过词语翻译将其翻译成低资源语言。在 17 种极低资源语言中，LexC-Gen 生成的数据与专家翻译的黄金数据具有竞争力，并且在情感分析和主题分类任务中，与现有的基于词典的词语翻译方法相比，平均提高了 5.6 和 8.9 个百分点。通过消融研究，我们表明，对双语词典的条件化是 LexC-Gen 的关键组成部分。LexC-Gen 可作为一种潜在的解决方案，缩小开源多语言模型（如 BLOOMZ 和 Aya-101）与 GPT-4o 等最先进的商业模型在低资源语言任务上的性能差距。