LLM2D

摘要

我们提出了“Paramanu”，一个针对印度语系的全新语言模型（LM）系列，包含从头开始预训练的自回归单语、双语和多语模型。目前，它涵盖了 10 种语言（阿萨姆语、孟加拉语、印地语、孔卡尼语、迈地利语、马拉地语、奥里亚语、梵语、泰米尔语、泰卢固语），跨越 5 种文字系统（孟加拉语、天城体、奥里亚语、泰米尔语、泰卢固语）。这些模型在单个 GPU 上进行预训练，上下文大小为 1024，参数规模从 1329 万 (M) 到 3.675 亿 (M) 不等。我们提出了一种 RoPE 嵌入缩放方法，使我们能够以比典型 GPU 内存允许的更大的序列长度上下文大小从头开始预训练语言模型。我们还引入了一种新颖的、高效的印度语分词器“mBharat”，它结合了 BPE 和 Unigram，实现了最低的生育率得分，并能够对相同文字系统和罗马文字系统中的未见语言进行分词。我们还针对多语模型提出了语言特定的分词方法，以及针对单语模型提出了领域特定的分词方法。为了解决我们 mParamanu 模型中的“多语性诅咒”，我们在基于相同文字系统内的类型学分组的相当语料库上进行了预训练。我们的研究结果表明，在相同文字系统和类型学内的语言中，从低资源语言到高资源语言存在语言迁移现象。针对开放式文本生成的的人工评估表明，尽管 Paramanu 模型的规模小 20 到 64 倍，但它们的表现优于几种大型语言模型。我们创建了指令微调数据集，并在各自的语言中使用 23,000 条指令对我们的模型进行了指令微调。跨各种自然语言 (NL) 理解、NL 推理和阅读理解基准与多语大型语言模型的比较突出了我们模型的优势；得出的结论是，高质量的生成式语言模型可以在没有大量计算能力和海量参数的情况下实现。