LLM2D

摘要

扩散模型最初是为图像生成而设计的。最近的研究表明，其骨干网络中的内部信号，即激活，也可以作为密集特征用于各种判别任务，例如语义分割。在众多激活中，选择一小部分但有效的子集是一个基本问题。为此，该领域的早期研究对激活的判别能力进行了大规模定量比较。然而，我们发现许多潜在的激活尚未得到评估，例如用于计算注意力分数的查询和键。此外，扩散架构的最新进展带来了许多新的激活，例如嵌入式 ViT 模块中的那些。两者结合起来，激活选择仍然悬而未决，但被忽视了。为了解决这个问题，本文进一步研究了更广泛的激活评估范围。考虑到激活的显著增加，全面的定量比较不再可行。相反，我们试图了解这些激活的特性，以便通过简单的定性评估可以提前过滤掉明显劣质的激活。经过仔细分析，我们发现了扩散模型中普遍存在的三个特性，使本研究能够超越特定模型。在此基础上，我们针对几种流行的扩散模型提出了有效的特征选择解决方案。最后，跨多个判别任务的实验验证了我们的方法优于 SOTA 竞争对手。我们的代码可在 https://github.com/Darkbblue/generic-diffusion-feature 获取。