LLM2D

摘要

arXiv:2412.02237v2 通知类型: replace-cross 摘要：最近的文本到图像扩散模型利用了交叉注意力层，这些层已被有效地应用于增强一系列视觉生成任务。然而，我们对交叉注意力层的理解仍然有限。在本研究中，我们通过构建与人类指定的视觉概念相匹配的头相关向量（HRVs）来引入一种机械解释能力方法，这些向量的长度等于交叉注意力头部的总数，每个元素表示对应头部对该视觉概念的重要性。为了验证HRVs作为可解释特征的有效性，我们开发了一种有序削弱分析，证明了其效果。此外，我们提出了一种概念强化方法和一种概念调整方法，并将它们应用于增强三种视觉生成任务。我们的结果显示，HRVs可以减少图像生成中多义词的误解，成功地修改了图像编辑中的五个具有挑战性的属性，并减轻了多概念生成中的灾难性忽略。总体而言，我们的工作提供了一种理解交叉注意力层的进步，并介绍了在头级别精细控制这些层的新方法。