LLM2D
Sailor2:在东南亚使用包容性多语言LLM航行
Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLMs
作者: Longxu Dou, Qian Liu, Fan Zhou, Changyu Chen, Zili Wang, Ziqi Jin, Zichen Liu, Tongyao Zhu, Cunxiao Du, Penghui Yang, Haonan Wang, Jiaheng Liu, Yongchi Zhao, Xiachong Feng, Xin Mao, Man Tsung Yeung, Kunat Pipatanakul, Fajri Koto, Min Si Thu, Hynek Kydl\'i\v{c}ek, Zeyi Liu, Qunshu Lin, Sittipong Sripaisarnmongkol, Kridtaphad Sae-Khow, Nirattisai Thongchim, Taechawat Konkaew, Narong Borijindargoon, Anh Dao, Matichon Maneegard, Phakphum Artkaew, Zheng-Xin Yong, Quan Nguyen, Wannaphong Phatthiyaphaibun, Hoang H. Tran, Mike Zhang, Shiqi Chen, Tianyu Pang, Chao Du, Xinyi Wan, Wei Lu, Min Lin
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12982v1

摘要

arXiv:2502.12982v1 类别: cross 摘要: Sailor2 是一系列用于东南亚 (SEA) 语言的前沿多语言语言模型,提供 1B、8B 和 20B 规模的版本,以适应不同的应用场景。在 Qwen2.5 的基础上,Sailor2 经过对 500B 个标记的持续预训练(其中 400B 个是SEA特定的标记,100B 个是重播标记),以支持 13 种 SEA 语言的同时保留汉语和英语的专业水平。Sailor2-20B 模型在 SEA 语言中与 GPT-4o 的对战中取得了 50-50 的胜率。我们还提供了一份完整的食谱,介绍如何高效地开发多语言模型,包括五个关键方面:数据整理、预训练、后训练、模型定制和评估。我们希望Sailor2 模型(采用 Apache 2.0 许可证)能够推动东南亚地区的语言发展,并希望 Sailor2 食谱能够启发研究人员为其他未充分服务的语言构建更具包容性的语言大模型 (LLM)。