摘要
arXiv:2504.05774v1 交叉声明类型
摘要:近期在视力转换器(ViTs)方面取得的进展已经设定了新的语义分割基准。然而,在将预训练的ViTs适应新的目标域时,由于分布偏移,往往会显著降低性能,导致全局注意力亚最优。由于自注意力机制本质上是数据驱动的,当源域和目标域在纹理、尺度或物体共现模式上存在差异时,它们可能会在关键对象的关注上失败。虽然全局和基于补丁的域适应方法提供了部分解决方案,但在不同图像区域间转移能力的空间异质性下,基于区域的动态形变区域适应至关重要。我们提出了Transferable Mask Transformer(TMT),这是一种新的基于区域的适应框架,通过空间转移能力分析对跨域表示进行对齐。TMT 包含两个关键组件:(1)一个自适应簇基转移能力估计器(ACTE),动态将图像分割为结构上和语义上一致的区域,以进行局部转移能力评估;(2)一个可转移遮罩注意(TMA)模块,将区域特定的转移能力图融入到ViTs的注意力机制中,优先在转移能力低且语义不确定性高的区域进行适配。在20对跨域中的全面评估证明了TMT的优势,相比于简单的微调,其平均提高了2%的MIoU,并且相比于最新的基线方法提高了1.28%。源代码将公开可用。