LLM2D
Oasis: 一幅图即可用于多模态指令数据合成
Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis
作者: Letian Zhang, Quan Cui, Bingchen Zhao, Cheng Yang
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2503.08741v3

摘要

arXiv:2503.08741v3 宣布类型: replace-cross 摘要:多模态大型语言模型(MLLMs)的成功主要归因于大规模的训练数据。然而,由于隐私问题,许多MLLMs的训练数据不可用。收集多模态数据的过程既昂贵又劳动密集,进一步加剧了这一问题。是否可以在不牺牲多样性和质量的情况下自动合成多模态训练数据?在本文中,我们提出了一个新的方法Oasis,仅使用图片来合成高质量的多模态数据。Oasis 突破了传统方法,通过仅向MLLMs提示图片,从而大大扩展了数据的多样性。我们的方法的特点是一种精细的质量控制方法,确保数据质量。我们收集了超过500,000个数据,并在LLaVA-NeXT 上进行了增量实验。广泛实验表明,我们的方法可以显著提高MLLMs的性能。基于图片的合成还允许我们关注MLLMs的专业领域能力。代码和数据集可在 https://github.com/Letian2003/MM_INF 提供。