LLM2D
并非所有扩散模型的激活都已被评估为判别特征
Not All Diffusion Model Activations Have Been Evaluated as Discriminative Features
作者: Benyuan Meng, Qianqian Xu, Zitai Wang, Xiaochun Cao, Qingming Huang
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.03558v1

摘要

扩散模型最初被设计用于图像生成。最近的研究表明,其骨干网络中的内部信号,即激活,也可以作为各种判别任务(如语义分割)的密集特征。鉴于大量的激活,选择一个小的但有效的子集是一个基本问题。为此,该领域的早期研究对激活的判别能力进行了大规模的定量比较。然而,我们发现许多潜在的激活尚未被评估,例如用于计算注意力分数的查询和键。此外,扩散架构的最新进展带来了许多新的激活,例如嵌入式 ViT 模块中的激活。两者结合起来,激活选择仍然悬而未决,但被忽视了。为了解决这个问题,本文进一步研究了更广泛的激活范围。考虑到激活数量的显著增加,全面的定量比较已不再可行。相反,我们试图理解这些激活的属性,以便通过简单的定性评估,可以预先过滤掉明显较差的激活。经过仔细分析,我们发现了扩散模型中普遍存在的三个属性,使本研究能够超越特定模型。在此基础上,我们针对几种流行的扩散模型提出了有效的特征选择解决方案。最后,跨多个判别任务的实验验证了我们的方法优于最先进的竞争对手。我们的代码可在 https://github.com/Darkbblue/generic-diffusion-feature 获取。