LLM2D

摘要

arXiv:2504.09753v1 交叉类型公告：摘要：大规模语言模型（LLMs）展现了令人瞩目的能力，但其发展主要集中在英语和其他高资源语言上，许多语言却未能得到充分的服务。我们展示了我们最新的双语 Hindi-English 大规模语言模型 \textbf{Mantra-14B}，与两种语言的基准得分相比，平均提高了约 3% 的成绩，且优于其两倍规模的模型。利用由 48.5 万条样本组成的定制数据集，包含了英汉指令数据，我们对 Qwen-2.5-14B-Instruct 和 Phi-4 模型进行了指令调整，以提高两种语言的表现。我们的实验涵盖了七个不同规模参数的 LLM，以及 140 多次采用不同英汉训练数据比例的训练尝试，表明在不牺牲母语性能的情况下，可以显著提高多语言性能。此外，我们的方法避免了词汇扩张或架构修改等资源密集型技术，从而保持了模型规模的较小。结果显示，适度使用与文化和社会背景相关的数据进行微调，可以在不增加重大计算开销的情况下弥合性能差距。我们以 mit 和 apache 许可证发布我们的训练代码、数据集和模型，以帮助进一步推进对未充分代表和低资源语言的研究。