LLM2D

摘要

arXiv:2503.08741v3 宣布类型: replace-cross 摘要：多模态大型语言模型（MLLMs）的成功主要归因于大规模的训练数据。然而，由于隐私问题，许多MLLMs的训练数据不可用。收集多模态数据的过程既昂贵又劳动密集，进一步加剧了这一问题。是否可以在不牺牲多样性和质量的情况下自动合成多模态训练数据？在本文中，我们提出了一个新的方法Oasis，仅使用图片来合成高质量的多模态数据。Oasis 突破了传统方法，通过仅向MLLMs提示图片，从而大大扩展了数据的多样性。我们的方法的特点是一种精细的质量控制方法，确保数据质量。我们收集了超过500,000个数据，并在LLaVA-NeXT 上进行了增量实验。广泛实验表明，我们的方法可以显著提高MLLMs的性能。基于图片的合成还允许我们关注MLLMs的专业领域能力。代码和数据集可在 https://github.com/Letian2003/MM_INF 提供。