LLM2D
InstructG2I:从多模态属性图合成图像
InstructG2I: Synthesizing Images from Multimodal Attributed Graphs
作者: Bowen Jin, Ziqi Pang, Bingjun Guo, Yu-Xiong Wang, Jiaxuan You, Jiawei Han
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.07157v1

摘要

本文关注一个被忽视但至关重要的任务:Graph2Image,即从多模态属性图 (MMAG) 生成图像。由于图尺寸爆炸、图实体之间的依赖关系以及对图条件的可控性需求,该任务面临着重大挑战。为了应对这些挑战,我们提出了一种名为 InstructG2I 的基于图上下文条件的扩散模型。InstructG2I 首先利用图结构和多模态信息,通过结合个性化 PageRank 和基于视觉语言特征的重新排序来进行信息丰富的邻居采样。然后,一个 Graph-QFormer 编码器自适应地将图节点编码成一组辅助图提示,以指导扩散的去噪过程。最后,我们提出了无分类器图引导,通过改变图引导的强度以及连接到节点的多个连接边来实现可控生成。在三个来自不同领域的数据集上进行的大量实验表明了我们方法的有效性和可控性。代码可在 https://github.com/PeterGriffinJin/InstructG2I 获取。