摘要
arXiv:2502.10458v1 型别: cross
摘要:本文提出了 ThinkDiff,这是一种新颖的对齐范式,通过将视觉语言模型(VLM)的优势集成到其中,为文本到图像扩散模型赋予了多模态上下文理解和推理能力。现有的多模态扩散微调方法主要集中在像素级重建,而不是上下文推理,且受到推理数据集复杂性高且可获得性有限的限制。ThinkDiff 通过利用视觉语言训练作为代理任务来应对这些挑战,将 VLM 与编码器-解码器大型语言模型(LLM)的解码器对齐,而不是与扩散解码器对齐。该代理任务基于以下观察:LLM 解码器与使用相应 LLM 编码器进行提示嵌入的扩散解码器共享相同的输入特征空间。因此,通过与 LLM 解码器对齐,可以简化与扩散解码器的对齐过程。在无需复杂训练和数据集的情况下,ThinkDiff 有效地释放了扩散模型的理解、推理和组合能力。实验表明,ThinkDiff 在具有挑战性的 CoBSAT 多模态上下文推理生成基准测试上,准确率从 19.2% 提高到 46.3%,仅用了 4 块 A100 GPU 训练 5 小时。此外,ThinkDiff 在组合多个图像和文本以生成逻辑连贯的图像方面表现优异。项目页面:https://mizhenxing.github.io/ThinkDiff.