摘要
arXiv:2504.12316v1 宣告类型: 交叉
摘要:数据整理在训练强大的视觉语言模型(VLMs)中扮演着至关重要的角色。在这项工作中,我们介绍了数据代谢的概念,并提出了一种以数据为中心的框架,用于在开发生命周期中构建VLMs。从标准模型架构开始,我们讨论并提供了关于两个关键开发步骤——数据整理和迭代——的见解,从而形成一个闭环系统,持续提升模型性能。我们详细介绍了如何处理现有的大规模数据集并构建用户特定的数据飞轮。作为演示,我们发布了名为Capybara-VL的VLM,它在典型的多模态任务(例如,视觉问答、科学推理和文本丰富的任务)中表现出色。尽管相对较小的规模,Capybara-VL超越了几种开源模型,这些模型的规模大了10倍。此外,它在与几种领先的专有模型相当的结果上证明了自己的卓越竞争力。这些结果突显了我们以数据为中心的框架的威力以及训练更小、更高效VLMs的潜力。