LLM2D

摘要

扩散模型最初被设计用于图像生成。最近的研究表明，其骨干网络中的内部信号，即激活，也可以作为各种判别任务（如语义分割）的密集特征。鉴于大量的激活，选择一个小的但有效的子集是一个基本问题。为此，该领域的早期研究对激活的判别能力进行了大规模的定量比较。然而，我们发现许多潜在的激活尚未被评估，例如用于计算注意力分数的查询和键。此外，扩散架构的最新进展带来了许多新的激活，例如嵌入式 ViT 模块中的激活。两者结合起来，激活选择仍然悬而未决，但被忽视了。为了解决这个问题，本文进一步研究了更广泛的激活范围。考虑到激活数量的显著增加，全面的定量比较已不再可行。相反，我们试图理解这些激活的属性，以便通过简单的定性评估，可以预先过滤掉明显较差的激活。经过仔细分析，我们发现了扩散模型中普遍存在的三个属性，使本研究能够超越特定模型。在此基础上，我们针对几种流行的扩散模型提出了有效的特征选择解决方案。最后，跨多个判别任务的实验验证了我们的方法优于最先进的竞争对手。我们的代码可在 https://github.com/Darkbblue/generic-diffusion-feature 获取。