LLM2D

摘要

arXiv:2503.05500v2 通知类型: 替换-交叉摘要: 传统上，用于检索、回归和分类的一般多语言向量表示是从双向编码器模型中获得的。尽管它们具有广泛的适用性，但编码器最近被生成的解码器模型的发展所超越。然而，推动这一进展的许多创新并不天然地与解码器相关。在本文中，我们从这些进展的角度重新审视了多语言编码器的发展，并介绍了EuroBERT，这是一个涵盖欧洲和广泛使用的全球语言的多语言编码器系列。我们的模型在从多语言能力到数学和编程的广泛任务中表现出色，并能够原生支持多达8,192个标记的序列。我们还探讨了EuroBERT的设计决策，提供了关于我们的数据集构成和训练管道的见解。我们已公开发布了EuroBERT模型，包括中间训练检查点以及我们的训练框架。