LLM2D
在增强本地性能的同时,通过融入文化与地方知识来提升大规模语言模型的多语言能力
Improving Multilingual Capabilities with Cultural and Local Knowledge in Large Language Models While Enhancing Native Performance
作者: Ram Mohan Rao Kadiyala, Siddartha Pullakhandam, Siddhant Gupta, Drishti Sharma, Jebish Purbey, Kanwal Mehreen, Muhammad Arham, Hamza Farooq
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09753v1

摘要

arXiv:2504.09753v1 交叉类型公告: 摘要:大规模语言模型(LLMs)展现了令人瞩目的能力,但其发展主要集中在英语和其他高资源语言上,许多语言却未能得到充分的服务。我们展示了我们最新的双语 Hindi-English 大规模语言模型 \textbf{Mantra-14B},与两种语言的基准得分相比,平均提高了约 3% 的成绩,且优于其两倍规模的模型。利用由 48.5 万条样本组成的定制数据集,包含了英汉指令数据,我们对 Qwen-2.5-14B-Instruct 和 Phi-4 模型进行了指令调整,以提高两种语言的表现。我们的实验涵盖了七个不同规模参数的 LLM,以及 140 多次采用不同英汉训练数据比例的训练尝试,表明在不牺牲母语性能的情况下,可以显著提高多语言性能。此外,我们的方法避免了词汇扩张或架构修改等资源密集型技术,从而保持了模型规模的较小。结果显示,适度使用与文化和社会背景相关的数据进行微调,可以在不增加重大计算开销的情况下弥合性能差距。我们以 mit 和 apache 许可证发布我们的训练代码、数据集和模型,以帮助进一步推进对未充分代表和低资源语言的研究。