LLM2D

摘要

大型语言模型 (LLM)凭借其强大的生成能力和丰富的知识，赋能日常生活中的各种任务。然而，这些能力主要集中在资源丰富的语言中，导致资源匮乏的语言生成能力较弱，知识相对有限。因此，增强LLM的多语言能力对于服务全球100多个语言社群至关重要。增强多语言能力的一种直观方法是为各种语言构建指令数据，但为100多种语言构建指令数据成本高昂。本文介绍了BayLing 2，它通过语言对齐有效地将生成能力和知识从资源丰富的语言转移到资源匮乏的语言。为此，我们构建了一个包含320万条指令的数据集，其中包括资源丰富语言（中文和英文）的指令以及100多种语言的跨语言指令，并基于该数据集进行了指令微调，以促进语言之间的能力转移。我们使用Llama作为基础模型，开发了BayLing-2-7B、BayLing-2-13B和BayLing-3-8B，并对BayLing进行了全面的评估。在100多种语言的跨语言翻译方面，BayLing的表现优于同等规模的开源模型。在多语言知识和理解基准测试中，BayLing在20多种资源匮乏的语言中取得了显著改进，证明了其有效地将知识从资源丰富语言转移到资源匮乏语言的能力。此外，在英文基准测试中的结果表明，BayLing在资源丰富的语言中保持了高性能，同时提高了资源匮乏语言的性能。BayLing的演示、主页、代码和模型均已公开可用。