LLM2D

摘要

arXiv:2502.10458v1 型别: cross 摘要：本文提出了 ThinkDiff，这是一种新颖的对齐范式，通过将视觉语言模型（VLM）的优势集成到其中，为文本到图像扩散模型赋予了多模态上下文理解和推理能力。现有的多模态扩散微调方法主要集中在像素级重建，而不是上下文推理，且受到推理数据集复杂性高且可获得性有限的限制。ThinkDiff 通过利用视觉语言训练作为代理任务来应对这些挑战，将 VLM 与编码器-解码器大型语言模型（LLM）的解码器对齐，而不是与扩散解码器对齐。该代理任务基于以下观察：LLM 解码器与使用相应 LLM 编码器进行提示嵌入的扩散解码器共享相同的输入特征空间。因此，通过与 LLM 解码器对齐，可以简化与扩散解码器的对齐过程。在无需复杂训练和数据集的情况下，ThinkDiff 有效地释放了扩散模型的理解、推理和组合能力。实验表明，ThinkDiff 在具有挑战性的 CoBSAT 多模态上下文推理生成基准测试上，准确率从 19.2% 提高到 46.3%，仅用了 4 块 A100 GPU 训练 5 小时。此外，ThinkDiff 在组合多个图像和文本以生成逻辑连贯的图像方面表现优异。项目页面：https://mizhenxing.github.io/ThinkDiff.