LLM2D
C-Pack:面向通用中文嵌入的资源包
C-Pack: Packed Resources For General Chinese Embeddings
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2309.07597v5

摘要

我们介绍了 C-Pack,这是一个资源包,它极大地推动了通用中文嵌入领域的发展。C-Pack 包含三个关键资源:1) C-MTEB 是一个全面的中文文本嵌入基准,涵盖 6 项任务和 35 个数据集。2) C-MTP 是一个从带标签和无标签中文语料库中整理的大规模文本嵌入数据集,用于训练嵌入模型。3) C-TEM 是一个包含多种尺寸的嵌入模型家族。我们的模型在 C-MTEB 上超越了所有先前的中文文本嵌入,在发布时提升了高达 10%。我们还整合和优化了 C-TEM 的整套训练方法。除了我们关于通用中文嵌入的资源外,我们还发布了英语文本嵌入的数据和模型。英语模型在 MTEB 基准测试中取得了最先进的性能;同时,我们发布的英语数据是中文数据的两倍。所有这些资源都可以在 https://github.com/FlagOpen/FlagEmbedding 上公开获取。