LLM2D
低资源语言生成语言模型中的数据稀缺性克服:一项系统评价
Overcoming Data Scarcity in Generative Language Modelling for Low-Resource Languages: A Systematic Review
作者: Josh McGiff, Nikola S. Nikolov
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2505.04531v1

摘要

arXiv:2505.04531v1 类型: cross 摘要:随着ChatGPT和Google Gemini等服务的出现,生成语言模型变得越来越受欢迎。虽然这些模型在提高生产力和沟通方面展现了变革性的潜力,但它们主要服务于像英语这样的高资源语言。这加剧了自然语言处理(NLP)中语言不平等的担忧。本文首次系统地针对低资源语言(LRL)中的生成语言模型数据稀缺问题提出了具体的应对策略。从54项研究中,我们识别、分类并评估了技术方法,包括单语言数据增强、反向翻译、多语言训练和提示工程,涵盖了生成任务。我们还分析了架构选择、语言家族表示和评估方法的趋势。我们的发现强调了对基于变换器模型的强烈依赖、对LRL的一小部分的集中关注以及研究之间缺乏一致的评估。我们提出了将这些方法推广到更广泛的LRL的建议,并概述了构建公平的生成语言系统面临的开放挑战。最终,本次评审旨在支持研究人员和开发者构建包容性的AI工具,以服务被忽视的语言,这是走向赋权LRL使用者并保护不断由大规模语言技术定义的世界中的语言多样性的必要步骤。