摘要
arXiv:2503.05500v2 通知类型: 替换-交叉
摘要: 传统上,用于检索、回归和分类的一般多语言向量表示是从双向编码器模型中获得的。尽管它们具有广泛的适用性,但编码器最近被生成的解码器模型的发展所超越。然而,推动这一进展的许多创新并不天然地与解码器相关。在本文中,我们从这些进展的角度重新审视了多语言编码器的发展,并介绍了EuroBERT,这是一个涵盖欧洲和广泛使用的全球语言的多语言编码器系列。我们的模型在从多语言能力到数学和编程的广泛任务中表现出色,并能够原生支持多达8,192个标记的序列。我们还探讨了EuroBERT的设计决策,提供了关于我们的数据集构成和训练管道的见解。我们已公开发布了EuroBERT模型,包括中间训练检查点以及我们的训练框架。