LLM2D

摘要

arXiv:2503.21757v1 交叉公告类型: 摘要：在本文中，我们旨在压缩大型视觉语言模型（LVLM）的视觉 token，使其同时适用于（a）生成性任务和（b）判别性任务，（c）几乎是无损的，以及（d）存储效率高的要求。我们提出了一种新型压缩方法，称为 Fwd2Bot，该方法利用 LVLM 本身以任务无关的方式压缩视觉信息。Fwd2bot 的核心是一种“双前向传递”训练策略，在第一个前向传递中，LLM（LVLM 中的 LLM）通过将视觉信息凝练为少量摘要 token 来形成瓶颈。然后，使用相同的 LLM，第二个前向传递会处理语言指令（和摘要 token），并将摘要 token 作为图像 token 的直接替换。两个损失函数提供了训练信号：在第二个传递后应用的自回归损失，为压缩提供了直接的优化目标，以及在第一个传递后应用的对比损失，进一步提升了表示能力，特别是在判别性任务方面。通过特定阶段的适配器，训练进一步增强。我们随提出的方法提供了一个详细的消融研究。总体而言，Fwd2Bot 结果产生了高度信息量的压缩表示，适用于生成性和判别性任务。对于生成性任务，我们实现了 2 倍更高的压缩率，而不牺牲生成能力，从而设立了新的 state-of-the-art 结果。对于判别性任务，我们设立了新的 state-of-the-art 在图像检索和组合性方面。