LLM2D

摘要

我们介绍了jina-embeddings-v3，这是一种具有5.7亿参数的新型文本嵌入模型，在多语言数据和长上下文检索任务中达到了最先进的性能，支持最长8192个标记的上下文长度。该模型包含一组任务特定的低秩适应（LoRA）适配器，用于生成高质量的嵌入，适用于查询-文档检索、聚类、分类和文本匹配。在MTEB基准测试中，jina-embeddings-v3在英语任务上优于OpenAI和Cohere的最新专有嵌入，同时在所有多语言任务中表现优于multilingual-e5-large-instruct。通过默认的1024维输出，用户可以灵活地将嵌入维度降低至最低32维，而不会影响性能，这得益于Matryoshka表示学习技术。