LLM2D

摘要

扩展多模态大型语言模型 (MLLMs) 的长上下文能力对于视频理解、高分辨率图像理解和多模态代理至关重要。这涉及一系列系统优化，包括模型架构、数据构建和训练策略，特别是解决诸如“图像越多性能下降”和“高计算成本”等挑战。在本文中，我们采用 Mamba 和 Transformer 模块的混合模型架构，通过多张图像之间的时空依赖关系来构建数据，并采用渐进式训练策略。发布的模型**LongLLaVA**（**Long**-Context **L**arge **L**anguage **a**nd **V**ision **A**ssistant）是第一个混合 MLLM，在效率和有效性之间取得了更好的平衡。LongLLaVA 不仅在各种基准测试中取得了有竞争力的结果，而且还保持了高吞吐量和低内存消耗。特别是，它可以在单个 A100 80GB GPU 上处理近千张图像，显示出在广泛任务中具有良好的应用前景。