摘要
arXiv:2504.15120v1 声明类型: cross
摘要: 在AI发展中,增强现有模型的新知识是一项关键任务。本论文提出了一种将新语言整合到大型语言模型(LLM)中的全新方法。我们的方法成功地将一种之前未见过的目标语言整合到现有的LLM中,而不牺牲其先前的知识。我们通过将阿拉伯语注入主要在英语文本上训练的小型开源模型,训练了一个名为Kuwait的参数量为1.5亿的小型模型。我们的方法在各种基准测试中显示了阿拉伯语语言性能的显著提高,平均改进了8%,同时通过最小化原始模型数据量来保留模型的现有知识。这为同时在英语和阿拉伯语上训练全面模型提供了一个经济有效的替代方案。结果突显了在无需大量重新训练或资源密集型过程的情况下,高效扩展语言模型的潜力。