LLM2D
LongLLaVA:通过混合架构高效地将多模态大型语言模型扩展到1000张图像
LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via a Hybrid Architecture
作者: Xidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2409.02889v2

摘要

扩展多模态大型语言模型 (MLLMs) 的长上下文能力对于视频理解、高分辨率图像理解和多模态代理至关重要。这涉及一系列系统优化,包括模型架构、数据构建和训练策略,特别是解决诸如“图像越多性能下降”和“高计算成本”等挑战。在本文中,我们采用 Mamba 和 Transformer 模块的混合模型架构,通过多张图像之间的时空依赖关系来构建数据,并采用渐进式训练策略。发布的模型**LongLLaVA**(**Long**-Context **L**arge **L**anguage **a**nd **V**ision **A**ssistant)是第一个混合 MLLM,在效率和有效性之间取得了更好的平衡。LongLLaVA 不仅在各种基准测试中取得了有竞争力的结果,而且还保持了高吞吐量和低内存消耗。特别是,它可以在单个 A100 80GB GPU 上处理近千张图像,显示出在广泛任务中具有良好的应用前景。