摘要
arXiv:2504.13123v1 交叉类型:cross
摘要:近年来,视觉-语言模型预训练领域经历了快速的发展,主要驱动力是大型语言模型中文本能力的持续提升。然而,当前针对多模态大型语言模型的预训练范式严重依赖高质量的图文对。随着模型和数据规模的指数级增长,这类精心策划的数据变得越来越稀缺和饱和,从而严重限制了该领域进一步的发展。本研究探讨了适用于视觉-语言模型预训练的可扩展的标题生成技术,并展示了大规模低幻觉合成标题的双重作用:1)作为预训练范式的一种可行替代数据源;2)在视觉-语言模型中集成时通过实证验证实现了更优的性能提升。本文提出了三个主要贡献:1)一种新颖的生成高质量、低幻觉和知识丰富的合成标题的管线。我们的连续DPO方法在减少幻觉方面取得了出色的结果。具体而言,对于一个7B大小的模型,在预留测试集中无幻觉标题的比例从48.2%提高到77.9%。2)全面的实证验证表明,我们的合成标题在预训练方面的优势远超其竞争对手。在35个视觉语言任务中,使用我们数据训练的模型与alt-text对和以往工作相比,实现了至少6.2%的显著性能提升,同时在文本到图像领域也提供了显著的支持。使用我们的数据集,在一个实际验证基准上FID分数降低了17.1,在MSCOCO验证基准上降低了13.3。3)我们将发布Hunyuan-Recap100M数据集,这是一个低幻觉和知识密集型的合成标题数据集。