LLM2D
EuroBERT:欧洲语言扩展编码器
EuroBERT: Scaling Multilingual Encoders for European Languages
作者: Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Duarte M. Alves, Andr\'e Martins, Ayoub Hammal, Caio Corro, C\'eline Hudelot, Emmanuel Malherbe, Etienne Malaboeuf, Fanny Jourdan, Gabriel Hautreux, Jo\~ao Alves, Kevin El-Haddad, Manuel Faysse, Maxime Peyrard, Nuno M. Guerreiro, Patrick Fernandes, Ricardo Rei, Pierre Colombo
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2503.05500v2

摘要

arXiv:2503.05500v2 通知类型: 替换-交叉 摘要: 传统上,用于检索、回归和分类的一般多语言向量表示是从双向编码器模型中获得的。尽管它们具有广泛的适用性,但编码器最近被生成的解码器模型的发展所超越。然而,推动这一进展的许多创新并不天然地与解码器相关。在本文中,我们从这些进展的角度重新审视了多语言编码器的发展,并介绍了EuroBERT,这是一个涵盖欧洲和广泛使用的全球语言的多语言编码器系列。我们的模型在从多语言能力到数学和编程的广泛任务中表现出色,并能够原生支持多达8,192个标记的序列。我们还探讨了EuroBERT的设计决策,提供了关于我们的数据集构成和训练管道的见解。我们已公开发布了EuroBERT模型,包括中间训练检查点以及我们的训练框架。