LLM2D
Fwd2Bot: 基于双前向瓶颈的LVLM视觉 token 压缩
Fwd2Bot: LVLM Visual Token Compression with Double Forward Bottleneck
作者: Adrian Bulat, Yassine Ouali, Georgios Tzimiropoulos
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2503.21757v1

摘要

arXiv:2503.21757v1 交叉公告类型: 摘要:在本文中,我们旨在压缩大型视觉语言模型(LVLM)的视觉 token,使其同时适用于(a)生成性任务和(b)判别性任务,(c)几乎是无损的,以及(d)存储效率高的要求。我们提出了一种新型压缩方法,称为 Fwd2Bot,该方法利用 LVLM 本身以任务无关的方式压缩视觉信息。Fwd2bot 的核心是一种“双前向传递”训练策略,在第一个前向传递中,LLM(LVLM 中的 LLM)通过将视觉信息凝练为少量摘要 token 来形成瓶颈。然后,使用相同的 LLM,第二个前向传递会处理语言指令(和摘要 token),并将摘要 token 作为图像 token 的直接替换。两个损失函数提供了训练信号:在第二个传递后应用的自回归损失,为压缩提供了直接的优化目标,以及在第一个传递后应用的对比损失,进一步提升了表示能力,特别是在判别性任务方面。通过特定阶段的适配器,训练进一步增强。我们随提出的方 法提供了一个详细的消融研究。总体而言,Fwd2Bot 结果产生了高度信息量的压缩表示,适用于生成性和判别性任务。对于生成性任务,我们实现了 2 倍更高的压缩率,而不牺牲生成能力,从而设立了新的 state-of-the-art 结果。对于判别性任务,我们设立了新的 state-of-the-art 在图像检索和组合性方面。