LLM2D
我思,故我扩散:在扩散模型中启用多模态上下文推理
I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
作者: Zhenxing Mi, Kuan-Chieh Wang, Guocheng Qian, Hanrong Ye, Runtao Liu, Sergey Tulyakov, Kfir Aberman, Dan Xu
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.10458v1

摘要

arXiv:2502.10458v1 型别: cross 摘要:本文提出了 ThinkDiff,这是一种新颖的对齐范式,通过将视觉语言模型(VLM)的优势集成到其中,为文本到图像扩散模型赋予了多模态上下文理解和推理能力。现有的多模态扩散微调方法主要集中在像素级重建,而不是上下文推理,且受到推理数据集复杂性高且可获得性有限的限制。ThinkDiff 通过利用视觉语言训练作为代理任务来应对这些挑战,将 VLM 与编码器-解码器大型语言模型(LLM)的解码器对齐,而不是与扩散解码器对齐。该代理任务基于以下观察:LLM 解码器与使用相应 LLM 编码器进行提示嵌入的扩散解码器共享相同的输入特征空间。因此,通过与 LLM 解码器对齐,可以简化与扩散解码器的对齐过程。在无需复杂训练和数据集的情况下,ThinkDiff 有效地释放了扩散模型的理解、推理和组合能力。实验表明,ThinkDiff 在具有挑战性的 CoBSAT 多模态上下文推理生成基准测试上,准确率从 19.2% 提高到 46.3%,仅用了 4 块 A100 GPU 训练 5 小时。此外,ThinkDiff 在组合多个图像和文本以生成逻辑连贯的图像方面表现优异。项目页面:https://mizhenxing.github.io/ThinkDiff.