LLM2D
多模态合成数据训练与模型崩溃:来自VLMs和扩散模型的见解
Multi-modal Synthetic Data Training and Model Collapse: Insights from VLMs and Diffusion Models
作者: Zizhao Hu, Mohammad Rostami, Jesse Thomason
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.08803v1

摘要

arXiv:2505.08803v1 公告类型:交叉 摘要:近期的研究突出了生成模型崩溃的风险,在持续使用自我生成的数据进行训练时,性能逐渐下降。然而,现有对模型崩溃的探索主要局限于单一的、单模态模型,限制了我们对更现实场景的理解,例如通过合成数据自主相互作用和持续进化的多样多模态AI代理。我们扩展了多模态合成数据训练和模型崩溃研究,涵盖了多模态的视觉语言生成系统,如视觉语言模型(VLMs)和文本到图像扩散模型,以及涉及多个模型的递归生成-训练循环。我们发现,在单一模态生成模型中观察到的模型崩溃,在多模态环境中表现出不同的特征,如视觉语言对齐的改进以及视觉语言模型图像-描述任务中方差的增加。此外,我们发现增加解码预算、提高模型多样性、以及使用冻结模型重新标注等一般方法可以有效地减轻模型崩溃。我们的发现为减少自我完善多代理AI系统中模型崩溃的风险以及精心制作 robust 多模态合成数据集提供了初步的见解和实用指南。