摘要
扩散模型最初是为图像生成而设计的。最近的研究表明,其骨干网络中的内部信号,即激活,也可以作为密集特征用于各种判别任务,例如语义分割。在众多激活中,选择一小部分但有效的子集是一个基本问题。为此,该领域的早期研究对激活的判别能力进行了大规模定量比较。然而,我们发现许多潜在的激活尚未得到评估,例如用于计算注意力分数的查询和键。此外,扩散架构的最新进展带来了许多新的激活,例如嵌入式 ViT 模块中的那些。两者结合起来,激活选择仍然悬而未决,但被忽视了。为了解决这个问题,本文进一步研究了更广泛的激活评估范围。考虑到激活的显著增加,全面的定量比较不再可行。相反,我们试图了解这些激活的特性,以便通过简单的定性评估可以提前过滤掉明显劣质的激活。经过仔细分析,我们发现了扩散模型中普遍存在的三个特性,使本研究能够超越特定模型。在此基础上,我们针对几种流行的扩散模型提出了有效的特征选择解决方案。最后,跨多个判别任务的实验验证了我们的方法优于 SOTA 竞争对手。我们的代码可在 https://github.com/Darkbblue/generic-diffusion-feature 获取。