LLM2D
Nomic Embed: 训练一个可重现的长_CONTEXT文本嵌入器
Nomic Embed: Training a Reproducible Long Context Text Embedder
作者: Zach Nussbaum, John X. Morris, Brandon Duderstadt, Andriy Mulyar
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2402.01613v2

摘要

arXiv:2402.01613v2 宣告类型: replace-cross 摘要: 本技术报告描述了nomic-embed-text-v1的训练情况,这是第一个完全可再现、开源、开放权重、开放数据、上下文长度为8192的英文文本嵌入模型,其在短上下文MTEB基准和长上下文LoCo基准上均优于OpenAI的Ada-002和OpenAI的text-embedding-3-small。我们以Apache 2.0许可证发布训练代码和模型权重。与其他开源模型不同,我们发布了完整的经 curate 的训练数据和代码,从而使nomic-embed-text-v1的完整复制成为可能。您可以在https://github.com/nomic-ai/contrastors找到用于复制该模型的代码和数据。