LLM2D

摘要

arXiv:2502.11187v1 交叉类型：cross 摘要：在本文中，我们介绍了TituLLMs，这是首个公开的大型预训练孟加拉语语言模型，提供1B和3B参数版本。由于在训练和推理过程中受到计算资源的限制，我们专注于较小的模型。为了训练TituLLMs，我们收集了一个大约包含370亿个标记的预训练数据集。我们扩展了Llama-3.2分词器，使其包含语言和文化特定的知识，这也有助于更快的训练和推理。缺乏针对孟加拉语的基准测试数据集，对此我们开发了五个基准测试数据集。我们对包括TituLLMs在内的多种语言模型进行了基准测试，并展示了TituLLMs在多个任务上优于其最初的多语言版本。然而，这并不总是成立，突显了语言适应的复杂性。我们的工作为基础多语言开源模型适应其他低资源语言奠定了基础。为了促进更广泛的应用和技术研究，我们已将TituLLMs模型和基准测试数据集公开发布（https://huggingface.co/collections/hishab/titulm-llama-family-6718d31fc1b83529276f490a）。