LLM2D

摘要

arXiv:2502.08468v1 公布类型: cross 摘要：多模态嵌入模型因其能够将不同模态的数据，如文本和图像，映射到统一的表示空间而受到了显著的关注。然而，有限的标记多模态数据常常限制了嵌入性能。近期的方法利用数据合成来解决这一问题，但合成数据的质量仍然是一个关键的瓶颈。在本文中，我们识别了高质量合成多模态数据的三个标准。首先，广泛的应用范围确保生成的数据涵盖了多种任务和模态，使其适用于各种下游场景。其次，鲁棒的跨模态对齐使得不同模态在语义上保持一致。第三，高保真度确保合成数据维持了现实的细节，以增强其可靠性。遵循这些原则，我们合成了以下数据集：(1) 包括广泛的任务、模态组合和语言，(2) 通过单一通过多模态大型语言模型的深度思考过程生成，(3) 融入了带有准确和相关文本的真实世界图像，并通过自我评估和改进确保了保真度。利用这些高质量的合成和标记数据集，我们训练了一个多模态多语言E5模型mmE5。广泛实验表明，mmE5在MMEB基准测试中达到了最先进的性能，并在XTD基准测试中实现了卓越的多语言性能。我们的代码、数据集和模型发布在https://github.com/haon-chen/mmE5。