LLM2D
图像生成中区域原语的解耦
Disentangling Regional Primitives for Image Generation
作者: Zhengting Chen, Lei Cheng, Lianghui Ding, Quanshi Zhang
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.04421v1

摘要

本文提出了一种解释图像生成神经网络内部表示结构的方法。具体而言,我们的方法将原始特征组件从神经网络的中间层特征中分离出来,确保每个特征组件仅用于生成特定的一组图像区域。这样,整个图像的生成就可以被认为是不同预编码的原始区域模式的叠加,每个模式由一个特征组件生成。我们发现,特征组件可以表示为生成不同图像区域的需求之间的“或”关系,这种关系由神经网络编码。因此,我们将 Harsanyi 互动扩展到表示这种“或”互动,从而分离特征组件。实验表明,每个特征组件与特定图像区域的生成之间存在清晰的对应关系。