LLM2D

摘要

我们介绍了Latxa，这是一个用于巴斯克语的大型语言模型系列，参数规模从7亿到700亿不等。Latxa基于Llama 2，我们在一个包含430万份文档和42亿个标记的新巴斯克语语料库上进行了继续预训练。针对巴斯克语高质量基准测试的稀缺性，我们进一步引入了4个多项选择评估数据集：EusProficiency，包含5169个来自官方语言能力考试的问题；EusReading，包含352个阅读理解问题；EusTrivia，包含来自5个知识领域的1715个琐事问题；以及EusExams，包含16774个来自公共考试的问题。在我们的广泛评估中，Latxa在所有我们比较的先前开源模型中表现出色，大幅领先。此外，尽管在阅读理解和知识密集型任务上稍显不足，Latxa在语言能力和理解方面与GPT-4 Turbo相当。Latxa系列模型、我们的新预训练语料库以及评估数据集均在开放许可下公开可用。我们的工具集支持在低资源语言上构建大型语言模型的可重复研究方法。