LLM2D
少即是多:一种简单而有效的令牌缩减方法,用于高效的多模态大型语言模型
Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs
作者: Dingjie Song, Wenjun Wang, Shunian Chen, Xidong Wang, Michael Guan, Benyou Wang
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.10994v2

摘要

多模态大型语言模型 (MLLMs) 的快速发展已在各个领域取得了非凡的成就。然而,这种进步伴随着模型资源消耗的大幅增加。为了解决这一紧迫问题,我们提出了一种新的方法,即使用 CLIP 度量进行令牌缩减 (TRIM),旨在提高 MLLMs 的效率,而不会牺牲其性能。TRIM 从人类在视觉问答 (VQA) 任务中的注意力模式中汲取灵感,为图像令牌的选择和缩减提供了全新的视角。TRIM 方法已在 12 个数据集上进行了广泛测试,结果表明在保持一致性能水平的同时,计算开销显着降低。这项研究标志着高效 MLLM 开发的重大进展,促进了高性能模型的更大可及性和可持续性。