LLM2D

摘要

arXiv:2503.22655v1 通告类型: 新摘要: 训练视觉-语言模型（VLMs）通常需要大量高质量的图像-文本对，但收集或合成这样的数据代价高昂。相比之下，文本数据丰富且成本低廉，促使人们提出一个问题：高质量的多模态训练数据是否可以纯粹从文本中合成？为了解决这一问题，我们提出了一种跨集成的三阶段多模态数据合成框架，该框架生成两个数据集：Unicorn-1.2M 和 Unicorn-471K-Instruction。在第一阶段：多样化的描述数据合成，我们通过使用大语言模型（LLMs）扩展稀疏的描述种子来构建1.2M语义上多样的高质量描述。在第二阶段：指令调优数据生成，我们将471K描述进一步处理成多轮指令调优任务，以支持复杂的推理。最后，在第三阶段：模态表示转移，这些文本描述的表示被转换为视觉表示，从而产生多样化的合成图像表示。这一三阶段过程使我们能够在不依赖真实图像的情况下构建Unicorn-1.2M用于预训练和Unicorn-471K-Instruction用于指令调优。通过消除对真实图像的依赖性，同时保持数据质量和多样性，我们的框架为VLMs的训练提供了成本效益高且可扩展的解决方案。代码可在https://github.com/Yu-xm/Unicorn.git 获取。