摘要
arXiv:2412.02237v2 通知类型: replace-cross
摘要:最近的文本到图像扩散模型利用了交叉注意力层,这些层已被有效地应用于增强一系列视觉生成任务。然而,我们对交叉注意力层的理解仍然有限。在本研究中,我们通过构建与人类指定的视觉概念相匹配的头相关向量(HRVs)来引入一种机械解释能力方法,这些向量的长度等于交叉注意力头部的总数,每个元素表示对应头部对该视觉概念的重要性。为了验证HRVs作为可解释特征的有效性,我们开发了一种有序削弱分析,证明了其效果。此外,我们提出了一种概念强化方法和一种概念调整方法,并将它们应用于增强三种视觉生成任务。我们的结果显示,HRVs可以减少图像生成中多义词的误解,成功地修改了图像编辑中的五个具有挑战性的属性,并减轻了多概念生成中的灾难性忽略。总体而言,我们的工作提供了一种理解交叉注意力层的进步,并介绍了在头级别精细控制这些层的新方法。