摘要
arXiv:2504.09753v1 交叉类型公告:
摘要:大规模语言模型(LLMs)展现了令人瞩目的能力,但其发展主要集中在英语和其他高资源语言上,许多语言却未能得到充分的服务。我们展示了我们最新的双语 Hindi-English 大规模语言模型 \textbf{Mantra-14B},与两种语言的基准得分相比,平均提高了约 3% 的成绩,且优于其两倍规模的模型。利用由 48.5 万条样本组成的定制数据集,包含了英汉指令数据,我们对 Qwen-2.5-14B-Instruct 和 Phi-4 模型进行了指令调整,以提高两种语言的表现。我们的实验涵盖了七个不同规模参数的 LLM,以及 140 多次采用不同英汉训练数据比例的训练尝试,表明在不牺牲母语性能的情况下,可以显著提高多语言性能。此外,我们的方法避免了词汇扩张或架构修改等资源密集型技术,从而保持了模型规模的较小。结果显示,适度使用与文化和社会背景相关的数据进行微调,可以在不增加重大计算开销的情况下弥合性能差距。我们以 mit 和 apache 许可证发布我们的训练代码、数据集和模型,以帮助进一步推进对未充分代表和低资源语言的研究。