LLM2D
Nomic Embed: 训练一个可再现的长上下文文本嵌入器
Nomic Embed: Training a Reproducible Long Context Text Embedder
作者: Zach Nussbaum, John X. Morris, Brandon Duderstadt, Andriy Mulyar
发布日期: 2/5/2025
arXiv ID: 2402.01613

摘要

arXiv:2402.01613v2 宣告类型: replace-cross 摘要: 本技术报告描述了 nomic-embed-text-v1 的训练,这是第一个完全可再现、开源、开放权重、开放数据、上下文长度为 8192 的英文文本嵌入模型,其在短上下文 MTEB 基准和长上下文 LoCo 基准上均优于 OpenAI Ada-002 和 OpenAI text-embedding-3-small。我们以 Apache 2.0 许可证发布训练代码和模型权重。与其他开源模型不同,我们发布了完整的经过精心策展的训练数据和代码,允许完全复制 nomic-embed-text-v1。您可以在 https://github.com/nomic-ai/contrastors 找到用于复制模型的代码和数据。