LLM2D

摘要

arXiv:2504.05774v1 交叉声明类型摘要：近期在视力转换器（ViTs）方面取得的进展已经设定了新的语义分割基准。然而，在将预训练的ViTs适应新的目标域时，由于分布偏移，往往会显著降低性能，导致全局注意力亚最优。由于自注意力机制本质上是数据驱动的，当源域和目标域在纹理、尺度或物体共现模式上存在差异时，它们可能会在关键对象的关注上失败。虽然全局和基于补丁的域适应方法提供了部分解决方案，但在不同图像区域间转移能力的空间异质性下，基于区域的动态形变区域适应至关重要。我们提出了Transferable Mask Transformer（TMT），这是一种新的基于区域的适应框架，通过空间转移能力分析对跨域表示进行对齐。TMT 包含两个关键组件：（1）一个自适应簇基转移能力估计器（ACTE），动态将图像分割为结构上和语义上一致的区域，以进行局部转移能力评估；（2）一个可转移遮罩注意（TMA）模块，将区域特定的转移能力图融入到ViTs的注意力机制中，优先在转移能力低且语义不确定性高的区域进行适配。在20对跨域中的全面评估证明了TMT的优势，相比于简单的微调，其平均提高了2%的MIoU，并且相比于最新的基线方法提高了1.28%。源代码将公开可用。