摘要
arXiv:2504.05299v1 宣布类型: 新
摘要: 大型视觉-语言模型(VLMs)表现出色,但需要大量的计算资源,这限制了它们在移动和边缘设备上的部署。较小的VLMs通常会采用大型模型的设计选择,例如广泛的图像标记化,导致GPU内存使用效率低下,制约了它们在设备端应用程序中的实际应用。
我们引入了SmolVLM,这是一个专门针对资源高效推断设计的紧凑型多模态模型系列。我们系统地探索了有利于低计算开销的架构配置、标记化策略和数据采集优化。通过这种方式,我们确定了在图像和视频任务中实现显著性能提升的关键设计选择,并且内存占用尽可能小。
我们最小的模型SmolVLM-256M,在推理过程中使用不到1GB的GPU内存,尽管比300倍大的Idefics-80B模型规模小18个月,但在图像和视频任务中仍表现出色。我们最大的模型,参数量为2.2B,其GPU内存使用量是现有最先进的VLMs的两倍,但仍能与之匹敌。SmolVLM模型不仅限于静态图像,还展示了强大的视频理解能力。
我们的实验结果强调,战略性地优化架构设计、采取激进但高效的标记化策略以及精心策划的训练数据显著提升了多模态性能,从而使得在规模小得多的情况下实现实际、节能的部署成为可能。