LLM2D
大型语言模型中用于零样本跨语言迁移的层交换方法
Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models
作者: Lucas Bandarkar, Benjamin Muller, Pritish Yuvraj, Rui Hou, Nayan Singhal, Hongjiang Lv, Bing Liu
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2410.01335v1

摘要

模型合并,例如模型混合,是一种将具有相同架构的不同模型组合在一起而不进行进一步训练的做法。在这项工作中,我们提出了一种模型合并方法,该方法解决了在非英语语言中为目标任务微调大型语言模型 (LLMs) 的难题,在这些语言中,特定于任务的数据通常不可用。我们专注于数学推理,在没有语言内部数学数据的情况下,通过组合语言和数学能力来促进跨语言迁移。从同一个预训练模型开始,我们在英语的数学指令数据和目标语言的通用指令数据上分别微调了“专家”。然后,我们用语言专家的层直接替换数学专家的顶部和底部 Transformer 层,这随后提高了目标语言中的数学性能。由此产生的合并模型在数学基准 MGSM 上优于单个专家和其他合并方法,在四种主要语言中提高了 10%,这些语言的数学指令数据很少。此外,这种层交换简单、廉价且直观,因为它基于对每个专家微调过程中最重要的参数变化的解释性分析。能够以这种方式成功地重新组合 LLMs 以进行跨语言迁移,为今后结合模型专业知识、创建模块化解决方案以及跨语言迁移推理能力开辟了可能性,所有这些都在事后完成。