LLM2D
TituLLMs:一个全面benchmarking的孟加拉语LLM家族
TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking
作者: Shahriar Kabir Nahin, Rabindra Nath Nandi, Sagor Sarker, Quazi Sarwar Muhtaseem, Md Kowsher, Apu Chandraw Shill, Md Ibrahim, Mehadi Hasan Menon, Tareq Al Muntasir, Firoj Alam
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11187v1

摘要

arXiv:2502.11187v1 交叉类型:cross 摘要:在本文中,我们介绍了TituLLMs,这是首个公开的大型预训练孟加拉语语言模型,提供1B和3B参数版本。由于在训练和推理过程中受到计算资源的限制,我们专注于较小的模型。为了训练TituLLMs,我们收集了一个大约包含370亿个标记的预训练数据集。我们扩展了Llama-3.2分词器,使其包含语言和文化特定的知识,这也有助于更快的训练和推理。缺乏针对孟加拉语的基准测试数据集,对此我们开发了五个基准测试数据集。我们对包括TituLLMs在内的多种语言模型进行了基准测试,并展示了TituLLMs在多个任务上优于其最初的多语言版本。然而,这并不总是成立,突显了语言适应的复杂性。我们的工作为基础多语言开源模型适应其他低资源语言奠定了基础。为了促进更广泛的应用和技术研究,我们已将TituLLMs模型和基准测试数据集公开发布(https://huggingface.co/collections/hishab/titulm-llama-family-6718d31fc1b83529276f490a)。