LLM2D

摘要

arXiv:2311.13254v4 宣告类型: replace-cross 摘要: 无监督领域自适应语义分割（UDA-SS）的目标是将来自标注源域的监督转移到无标注目标域。现有的大多数UDA-SS工作通常只考虑图像，而最近的尝试进一步通过建模时间维度来处理视频。尽管这两条研究路线在克服潜在的领域分布转移方面共享主要挑战，但它们的研究是很大程度上独立的，导致碎片化的见解、整体理解的欠缺以及研究思想相互借鉴的机会被错过。这种碎片化导致方法的统一被阻碍，引起在图像和视频域之间存在冗余努力和次优的知识转移。在观察到这一点后，我们认为有必要统一对视频和图像场景中的UDA-SS的研究，从而实现更全面的理解、协同进步和高效的知识分享。为此，我们从通用数据增强的角度探索统一的UDA-SS，提供了一个统一的概念框架，提高了泛化能力，并为进一步的思想互渗提供了可能，最终为该领域的整体进展和实际影响做出了贡献。具体而言，我们提出了一种四方向Mixup（QuadMix）方法，通过特征空间内的四个方向路径解决不同点属性和特征不一致性问题以实现跨域的混合。为了处理视频中的时间偏移，我们结合了基于光流的空间和时间维度的特征聚合，以实现精细粒度的领域对齐。大量的实验结果显示，我们的方法在四个具有挑战性的UDA-SS基准测试中显著优于现有的最新方法。我们的源代码和模型将在 https://github.com/ZHE-SAPI/UDASS 发布。