LLM2D
Flash-VL 2B:优化超低 latency 和高 throughput 的视觉语言模型性能
Flash-VL 2B: Optimizing Vision-Language Model Performance for Ultra-Low Latency and High Throughput
作者: Bo Zhang, Shuo Li, Runhe Tian, Yang Yang, Jixin Tang, Jinhao Zhou, Lin Ma
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.09498v1

摘要

arXiv:2505.09498v1 类型: cross 摘要:在本文中,我们引入了Flash-VL 2B,一种针对实时应用优化视觉-语言模型(VLMs)的新方法,目标是在不牺牲准确性的情况下实现超低延迟和高 throughput。利用先进的架构增强和高效的计算策略,Flash-VL 2B 被设计为通过减少处理时间来最大化吞吐量,同时在多个视觉-语言基准上保持竞争力。我们的方法包括定制的架构选择、标记压缩机制、数据策展、训练方案以及一种名为隐式语义缝合的新颖图像处理技术,该技术有效地平衡了计算负载和模型性能。通过对11个标准的视觉-语言模型基准进行广泛评估,我们展示了Flash-VL 2B 在速度和准确性方面均达到最新成果,使其成为在资源受限环境中部署和大型实时应用中的有前途的解决方案。