LLM2D
逐层逐头视觉令牌剪枝以提高高效大型视觉-语言模型性能
PLPHP: Per-Layer Per-Head Vision Token Pruning for Efficient Large Vision-Language Models
作者: Yu Meng, Kaiyuan Li, Chenran Huang, Chen Gao, Xinlei Chen, Yong Li, Xiaoping Zhang
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14504v1

摘要

arXiv:2502.14504v1 交叉发布公告类型 摘要:大规模多模态视觉-语言模型(LVLMs)在多种多模态任务中展现了卓越的能力。然而,由于在解码过程中处理了大量的视觉标记,其推理效率受到限制。为了应对这一挑战,我们提出了Per-Layer Per-Head Vision Token Pruning (PLPHP),这是一种两层精细剪枝方法,包括逐层保留率分配和逐头视觉标记剪枝。受解码层间视觉标记重注意现象的启发,我们逐层动态调整标记保留率。表现出较强视觉信息注意力的层保留更多视觉标记,而视觉注意力较低的层则被剧烈剪枝。此外,PLPHP在注意力头级别进行剪枝,使得同一层内的不同头能够独立保留关键上下文。在多个基准测试上的实验表明,PLPHP在保持0.46%平均性能下降的同时,提供了18%更快的解码速度,并且使Key-Value缓存(KV缓存)大小减少了超过50%,同时在多张图像任务中也取得了显著的性能提升。这些结果突显了精细粒度标记剪枝的有效性,有助于提高LVLMs的效率和可扩展性。我们的源代码将公开发布。