LLM2D
mmE5: 通过高质量合成数据改进多模态多语言嵌入
mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data
作者: Haonan Chen, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, Zhicheng Dou
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.08468v1

摘要

arXiv:2502.08468v1 公布类型: cross 摘要:多模态嵌入模型因其能够将不同模态的数据,如文本和图像,映射到统一的表示空间而受到了显著的关注。然而,有限的标记多模态数据常常限制了嵌入性能。近期的方法利用数据合成来解决这一问题,但合成数据的质量仍然是一个关键的瓶颈。在本文中,我们识别了高质量合成多模态数据的三个标准。首先,广泛的应用范围确保生成的数据涵盖了多种任务和模态,使其适用于各种下游场景。其次,鲁棒的跨模态对齐使得不同模态在语义上保持一致。第三,高保真度确保合成数据维持了现实的细节,以增强其可靠性。遵循这些原则,我们合成了以下数据集:(1) 包括广泛的任务、模态组合和语言,(2) 通过单一通过多模态大型语言模型的深度思考过程生成,(3) 融入了带有准确和相关文本的真实世界图像,并通过自我评估和改进确保了保真度。利用这些高质量的合成和标记数据集,我们训练了一个多模态多语言E5模型mmE5。广泛实验表明,mmE5在MMEB基准测试中达到了最先进的性能,并在XTD基准测试中实现了卓越的多语言性能。我们的代码、数据集和模型发布在https://github.com/haon-chen/mmE5。