LLM2D
可转移掩模变换器:基于区域自适应转移性估计的跨域语义分割
Transferable Mask Transformer: Cross-domain Semantic Segmentation with Region-adaptive Transferability Estimation
作者: Enming Zhang, Zhengyu Li, Yanru Wu, Jingge Wang, Yang Tan, Ruizhe Zhao, Guan Wang, Yang Li
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.05774v1

摘要

arXiv:2504.05774v1 交叉声明类型 摘要:近期在视力转换器(ViTs)方面取得的进展已经设定了新的语义分割基准。然而,在将预训练的ViTs适应新的目标域时,由于分布偏移,往往会显著降低性能,导致全局注意力亚最优。由于自注意力机制本质上是数据驱动的,当源域和目标域在纹理、尺度或物体共现模式上存在差异时,它们可能会在关键对象的关注上失败。虽然全局和基于补丁的域适应方法提供了部分解决方案,但在不同图像区域间转移能力的空间异质性下,基于区域的动态形变区域适应至关重要。我们提出了Transferable Mask Transformer(TMT),这是一种新的基于区域的适应框架,通过空间转移能力分析对跨域表示进行对齐。TMT 包含两个关键组件:(1)一个自适应簇基转移能力估计器(ACTE),动态将图像分割为结构上和语义上一致的区域,以进行局部转移能力评估;(2)一个可转移遮罩注意(TMA)模块,将区域特定的转移能力图融入到ViTs的注意力机制中,优先在转移能力低且语义不确定性高的区域进行适配。在20对跨域中的全面评估证明了TMT的优势,相比于简单的微调,其平均提高了2%的MIoU,并且相比于最新的基线方法提高了1.28%。源代码将公开可用。