LLM2D
重访大规模图像-文本数据在预训练多模态基础模型中的应用
Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models
作者: Zhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Juan Lao Tebar, Wenze Hu, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.02740v1

摘要

近年来,多模态模型的进展突显了重写标题在提升性能方面的价值,但仍存在关键挑战。例如,虽然合成标题通常提供更高质量和图像文本对齐,但尚不清楚它们是否能完全取代替代文本:合成标题的作用及其与原始网络爬取替代文本在预训练中的交互作用尚不清楚。此外,不同的多模态基础模型可能对特定标题格式有独特的偏好,但识别每个模型的最佳标题的工作仍然有限。在这项工作中,我们提出了一种新颖、可控且可扩展的标题生成管道,旨在生成针对各种多模态模型定制的不同标题格式。通过以短合成标题(SSC)到密集合成标题(DSC+)为案例研究,我们系统地探索了它们对 CLIP、多模态 LLM 和扩散模型等模型的影响及其与替代文本的交互作用。我们的研究结果表明,同时保留合成标题和替代文本的混合方法可以优于仅使用合成标题的方法,从而提高对齐和性能,每个模型都表现出对特定标题格式的偏好。这项全面的分析为优化标题策略提供了宝贵的见解,从而推动了多模态基础模型的预训练。