LLM2D

摘要

尽管基于深度学习的计算机视觉取得了最近的进展，但领域迁移仍然是主要的挑战之一。自动驾驶中的语义分割面临着各种各样的领域迁移，例如由天气变化、新的地理位置以及模型训练中合成数据的频繁使用所导致的。无监督领域自适应 (UDA) 方法已经出现，这些方法仅使用该领域未标记的数据来使模型适应新的目标领域。UDA 方法种类繁多，但它们都使用 ImageNet 预训练模型。最近，视觉语言模型展现出强大的泛化能力，这可能有助于领域自适应。我们表明，仅将 DACS 等现有 UDA 方法的编码器替换为视觉语言预训练编码器，就可以在 GTA5 到 Cityscapes 的领域迁移上实现高达 10.0% mIoU 的显著性能提升。对于对未见领域的泛化性能，新采用的视觉语言预训练编码器在三个未见数据集上的提升高达 13.7% mIoU。然而，我们发现并非所有 UDA 方法都能轻松地与新的编码器配对，并且 UDA 性能并不总是同样转化为泛化性能。最后，我们在恶劣天气条件下的领域迁移上进行了实验，以进一步验证我们在纯真实到真实的领域迁移上的发现。