LLM2D

摘要

arXiv:2505.08803v1 公告类型：交叉摘要：近期的研究突出了生成模型崩溃的风险，在持续使用自我生成的数据进行训练时，性能逐渐下降。然而，现有对模型崩溃的探索主要局限于单一的、单模态模型，限制了我们对更现实场景的理解，例如通过合成数据自主相互作用和持续进化的多样多模态AI代理。我们扩展了多模态合成数据训练和模型崩溃研究，涵盖了多模态的视觉语言生成系统，如视觉语言模型（VLMs）和文本到图像扩散模型，以及涉及多个模型的递归生成-训练循环。我们发现，在单一模态生成模型中观察到的模型崩溃，在多模态环境中表现出不同的特征，如视觉语言对齐的改进以及视觉语言模型图像-描述任务中方差的增加。此外，我们发现增加解码预算、提高模型多样性、以及使用冻结模型重新标注等一般方法可以有效地减轻模型崩溃。我们的发现为减少自我完善多代理AI系统中模型崩溃的风险以及精心制作 robust 多模态合成数据集提供了初步的见解和实用指南。