LLM2D
NanoVLMs:我们能做得多小仍能制作出连贯的视觉语言模型?
NanoVLMs: How small can we go and still make coherent Vision Language Models?
作者: Mukund Agarwalla, Himanshu Kumar, Raj Dandekar, Rajat Dandekar, Sreedath Panat
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.07838v2

摘要

arXiv:2502.07838v2 宣布类型: cross 摘要:视觉语言模型(VLMs),如GPT-4V和Llama 3.2视觉,因其能够利用大规模语言模型(LLMs)进行多模态任务而吸引了大量的研究关注。然而,它们的潜力受到内在挑战的限制,包括产权限制、巨大的计算需求以及有限的可访问性。较小的模型,如GIT和BLIP,表现出明显的限制,即使经过大量训练,也无法生成连贯一致的文本,超过几个标记。这突出了一项关键的疑问:VLM能小到什么程度还能生成流畅且一致的文本?受到3-4岁儿童极其依赖视觉线索来理解和沟通的启发,我们引入了两个新的数据集:ShortDesc(包含简明的图像描述)和LongDesc(包含更详细的图像描述)。这些数据集包括图像-文本对,其中文本仅限于儿童常用的简单词汇和语法,并使用缩小版的模型GPT-4o生成。使用这些数据集,我们证明了可以训练显著更小的VLM,最多可比最先进的(SOTA)小型VLM小10倍,同时保持架构的简单性。为了评估输出,我们利用GPT-4o以学生写作作品的形式对文本进行评分,评估其创意性、意义性和一致性,给出0至10分的评分。这种方法通过适应结构化不足的输出并提供多维度评估模型能力来弥补标准基准的局限性。我们的研究结果为资源受限环境中开发轻量级、易于访问的多模态模型做出了贡献。