LLM2D

摘要

arXiv:2504.06536v1 Announce Type: cross 摘要：大规模语言模型（LLMs）在广泛自然语言应用中取得了令人印象深刻的成果。然而，它们在识别低资源语言方面往往存在困难，特别是非洲语言，在大型训练语料库中这些语言的代表性不足。在本文中，我们探讨了如何将LLMs适应低资源非洲语言。我们发现，将非洲语言的精挑细选数据与高质量的英语教育文本结合，可以生成一种训练混合，显著提高模型在这些语言上的性能。在具有挑战性的IrokoBench数据集上，我们的模型在大小相当的基线中始终表现出最佳性能，特别是在知识密集型多项选择题（AfriMMLU）方面。此外，在跨语言问答基准AfriQA上，我们的模型比基础模型高出超过10%。为了更好地理解训练期间英语数据的作用，我们将2亿词中的一个子集翻译成斯瓦希里语，并进行分析，结果表明这些数据的内容主要负责了出色的性能。我们发布了我们的模型和数据，以鼓励未来对非洲语言的研究。