摘要
arXiv:2502.11187v1 交叉类型:cross
摘要:在本文中,我们介绍了TituLLMs,这是首个公开的大型预训练孟加拉语语言模型,提供1B和3B参数版本。由于在训练和推理过程中受到计算资源的限制,我们专注于较小的模型。为了训练TituLLMs,我们收集了一个大约包含370亿个标记的预训练数据集。我们扩展了Llama-3.2分词器,使其包含语言和文化特定的知识,这也有助于更快的训练和推理。缺乏针对孟加拉语的基准测试数据集,对此我们开发了五个基准测试数据集。我们对包括TituLLMs在内的多种语言模型进行了基准测试,并展示了TituLLMs在多个任务上优于其最初的多语言版本。然而,这并不总是成立,突显了语言适应的复杂性。我们的工作为基础多语言开源模型适应其他低资源语言奠定了基础。为了促进更广泛的应用和技术研究,我们已将TituLLMs模型和基准测试数据集公开发布(https://huggingface.co/collections/hishab/titulm-llama-family-6718d31fc1b83529276f490a)。