摘要
本文提出了一种解释图像生成神经网络内部表示结构的方法。具体来说,我们的方法将原始特征成分从神经网络的中间层特征中分离出来,从而确保每个特征成分专用于生成特定的一组图像区域。这样,整个图像的生成可以被认为是不同预编码的原始区域模式的叠加,每个模式由一个特征成分生成。我们发现,特征成分可以表示为对生成不同图像区域的需求的“或”关系,这种关系由神经网络编码。因此,我们扩展了 Harsanyi 交互来表示这种“或”交互,以分离特征成分。实验表明,每个特征成分与特定图像区域的生成之间存在清晰的对应关系。