LLM2D

摘要

本文提出了一种解释图像生成神经网络内部表示结构的方法。具体而言，我们的方法将原始特征组件从神经网络的中间层特征中分离出来，确保每个特征组件仅用于生成特定的一组图像区域。这样，整个图像的生成就可以被认为是不同预编码的原始区域模式的叠加，每个模式由一个特征组件生成。我们发现，特征组件可以表示为生成不同图像区域的需求之间的“或”关系，这种关系由神经网络编码。因此，我们将 Harsanyi 互动扩展到表示这种“或”互动，从而分离特征组件。实验表明，每个特征组件与特定图像区域的生成之间存在清晰的对应关系。