摘要
arXiv:2502.12982v1 类别: cross
摘要: Sailor2 是一系列用于东南亚 (SEA) 语言的前沿多语言语言模型,提供 1B、8B 和 20B 规模的版本,以适应不同的应用场景。在 Qwen2.5 的基础上,Sailor2 经过对 500B 个标记的持续预训练(其中 400B 个是SEA特定的标记,100B 个是重播标记),以支持 13 种 SEA 语言的同时保留汉语和英语的专业水平。Sailor2-20B 模型在 SEA 语言中与 GPT-4o 的对战中取得了 50-50 的胜率。我们还提供了一份完整的食谱,介绍如何高效地开发多语言模型,包括五个关键方面:数据整理、预训练、后训练、模型定制和评估。我们希望Sailor2 模型(采用 Apache 2.0 许可证)能够推动东南亚地区的语言发展,并希望 Sailor2 食谱能够启发研究人员为其他未充分服务的语言构建更具包容性的语言大模型 (LLM)。