LLM2D
Lugha-Llama:适应非洲语言的大语言模型
Lugha-Llama: Adapting Large Language Models for African Languages
作者: Happy Buzaaba, Alexander Wettig, David Ifeoluwa Adelani, Christiane Fellbaum
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2504.06536v1

摘要

arXiv:2504.06536v1 Announce Type: cross 摘要:大规模语言模型(LLMs)在广泛自然语言应用中取得了令人印象深刻的成果。然而,它们在识别低资源语言方面往往存在困难,特别是非洲语言,在大型训练语料库中这些语言的代表性不足。在本文中,我们探讨了如何将LLMs适应低资源非洲语言。我们发现,将非洲语言的精挑细选数据与高质量的英语教育文本结合,可以生成一种训练混合,显著提高模型在这些语言上的性能。在具有挑战性的IrokoBench数据集上,我们的模型在大小相当的基线中始终表现出最佳性能,特别是在知识密集型多项选择题(AfriMMLU)方面。此外,在跨语言问答基准AfriQA上,我们的模型比基础模型高出超过10%。为了更好地理解训练期间英语数据的作用,我们将2亿词中的一个子集翻译成斯瓦希里语,并进行分析,结果表明这些数据的内容主要负责了出色的性能。我们发布了我们的模型和数据,以鼓励未来对非洲语言的研究。