LLM2D

摘要

将大型语言模型 (LLM) 适应新语言通常涉及持续预训练 (CT) 然后进行监督微调 (SFT)。然而，这种 CT-then-SFT 方法在低资源语言环境下数据有限的情况下难以平衡语言建模和任务解决能力。因此，我们提出了模型合并作为低资源语言的一种替代方案，将具有不同能力的模型合并成一个模型，而无需额外训练。我们使用模型合并为低资源语言开发任务解决型 LLM，而无需在目标语言中进行 SFT 数据。我们基于 Llama-2-7B 的实验表明，模型合并有效地赋予了低资源语言的 LLM 任务解决能力，在数据极其稀缺的情况下优于 CT-then-SFT。观察到模型合并中训练代币数量越多，性能就越饱和，我们进一步分析了合并过程，并在模型合并算法中引入了松弛变量，以减轻重要参数的损失，从而提高性能。我们希望模型合并能够以更高的数据效率惠及更多受数据稀缺困扰的人类语言。