LLM2D
并非所有扩散模型激活都曾被评估为判别性特征
Not All Diffusion Model Activations Have Been Evaluated as Discriminative Features
作者: Benyuan Meng, Qianqian Xu, Zitai Wang, Xiaochun Cao, Qingming Huang
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.03558v2

摘要

扩散模型最初是为图像生成而设计的。最近的研究表明,其骨干网络中的内部信号,即激活,也可以作为密集特征用于各种判别任务,例如语义分割。在众多激活中,选择一小部分但有效的子集是一个基本问题。为此,该领域的早期研究对激活的判别能力进行了大规模定量比较。然而,我们发现许多潜在的激活尚未得到评估,例如用于计算注意力分数的查询和键。此外,扩散架构的最新进展带来了许多新的激活,例如嵌入式 ViT 模块中的那些。两者结合起来,激活选择仍然悬而未决,但被忽视了。为了解决这个问题,本文进一步研究了更广泛的激活评估范围。考虑到激活的显著增加,全面的定量比较不再可行。相反,我们试图了解这些激活的特性,以便通过简单的定性评估可以提前过滤掉明显劣质的激活。经过仔细分析,我们发现了扩散模型中普遍存在的三个特性,使本研究能够超越特定模型。在此基础上,我们针对几种流行的扩散模型提出了有效的特征选择解决方案。最后,跨多个判别任务的实验验证了我们的方法优于 SOTA 竞争对手。我们的代码可在 https://github.com/Darkbblue/generic-diffusion-feature 获取。