摘要
arXiv:2503.22655v1 通告类型: 新
摘要: 训练视觉-语言模型(VLMs)通常需要大量高质量的图像-文本对,但收集或合成这样的数据代价高昂。相比之下,文本数据丰富且成本低廉,促使人们提出一个问题:高质量的多模态训练数据是否可以纯粹从文本中合成?为了解决这一问题,我们提出了一种跨集成的三阶段多模态数据合成框架,该框架生成两个数据集:Unicorn-1.2M 和 Unicorn-471K-Instruction。在第一阶段:多样化的描述数据合成,我们通过使用大语言模型(LLMs)扩展稀疏的描述种子来构建1.2M语义上多样的高质量描述。在第二阶段:指令调优数据生成,我们将471K描述进一步处理成多轮指令调优任务,以支持复杂的推理。最后,在第三阶段:模态表示转移,这些文本描述的表示被转换为视觉表示,从而产生多样化的合成图像表示。这一三阶段过程使我们能够在不依赖真实图像的情况下构建Unicorn-1.2M用于预训练和Unicorn-471K-Instruction用于指令调优。通过消除对真实图像的依赖性,同时保持数据质量和多样性,我们的框架为VLMs的训练提供了成本效益高且可扩展的解决方案。代码可在https://github.com/Yu-xm/Unicorn.git 获取。