摘要
arXiv:2504.17892v1 交叉类型: 多模态
摘要:大型多模态模型(LMMs)的指数级增长推动了跨模态推理的发展,但同时也带来了重大的计算成本。在这项工作中,我们专注于视觉语言模型。我们指出了当前视觉编码器中存在的冗余和低效性,并寻求构建一种适应性的压缩方法来处理多模态数据。在这项工作中,我们通过对基准测试和定性分析来表征各种视觉标记的选择和合并方法。具体而言,我们证明了简单的基于簇的标记聚合在标记选择和合并方面优于之前的最先进的作品,包括在视觉编码器级别进行合并和基于注意力的方法。我们指出了当前视觉编码器中的冗余性,并通过跨模态注意力可视化揭示了视觉标记选择原则的一些令人困惑的趋势。这项工作是朝着更有效地编码和处理高维数据迈出的第一步,为更具有扩展性和可持续性的多模态系统铺平了道路。