摘要
我们介绍了jina-embeddings-v3,这是一种具有5.7亿参数的新型文本嵌入模型,在多语言数据和长上下文检索任务中达到了最先进的性能,支持最长8192个标记的上下文长度。该模型包含一组任务特定的低秩适应(LoRA)适配器,用于生成高质量的嵌入,适用于查询-文档检索、聚类、分类和文本匹配。在MTEB基准测试中,jina-embeddings-v3在英语任务上优于OpenAI和Cohere的最新专有嵌入,同时在所有多语言任务中表现优于multilingual-e5-large-instruct。通过默认的1024维输出,用户可以灵活地将嵌入维度降低至最低32维,而不会影响性能,这得益于Matryoshka表示学习技术。