LLM2D

摘要

多模态大型语言模型 (MLLMs) 的快速发展已在各个领域取得了非凡的成就。然而，这种进步伴随着模型资源消耗的大幅增加。为了解决这一紧迫问题，我们提出了一种新的方法，即使用 CLIP 度量进行令牌缩减 (TRIM)，旨在提高 MLLMs 的效率，而不会牺牲其性能。TRIM 从人类在视觉问答 (VQA) 任务中的注意力模式中汲取灵感，为图像令牌的选择和缩减提供了全新的视角。TRIM 方法已在 12 个数据集上进行了广泛测试，结果表明在保持一致性能水平的同时，计算开销显着降低。这项研究标志着高效 MLLM 开发的重大进展，促进了高性能模型的更大可及性和可持续性。