LLM2D

摘要

arXiv:2502.14504v1 交叉发布公告类型摘要：大规模多模态视觉-语言模型（LVLMs）在多种多模态任务中展现了卓越的能力。然而，由于在解码过程中处理了大量的视觉标记，其推理效率受到限制。为了应对这一挑战，我们提出了Per-Layer Per-Head Vision Token Pruning (PLPHP)，这是一种两层精细剪枝方法，包括逐层保留率分配和逐头视觉标记剪枝。受解码层间视觉标记重注意现象的启发，我们逐层动态调整标记保留率。表现出较强视觉信息注意力的层保留更多视觉标记，而视觉注意力较低的层则被剧烈剪枝。此外，PLPHP在注意力头级别进行剪枝，使得同一层内的不同头能够独立保留关键上下文。在多个基准测试上的实验表明，PLPHP在保持0.46%平均性能下降的同时，提供了18%更快的解码速度，并且使Key-Value缓存（KV缓存）大小减少了超过50%，同时在多张图像任务中也取得了显著的性能提升。这些结果突显了精细粒度标记剪枝的有效性，有助于提高LVLMs的效率和可扩展性。我们的源代码将公开发布。