LLM2D

摘要

arXiv:2412.16859v2 公告类型: replace-cross 摘要：语义分割需要大量的像素级标注，因此推动了无监督领域适应（UDA），以便将已标注的来源领域知识转移到未标注或部分标注的目标领域。最有效的方法之一是利用在受限虚拟环境中生成的合成数据集，如视频游戏或交通模拟器，这些数据集可以自动生成像素级标注。然而，即使有这样的数据集可供使用，学习一种既能很好地概括又能捕捉两个领域特征的表示仍然是具有挑战性的，因为虚拟世界和现实世界图像之间的概率和几何差异。本文介绍了一种基于潜在扩散模型的语义分割方法，称为Inter-Coder Connected Latent Diffusion（ICCLD），以及一种无监督领域适应方法。该模型通过跨编码器连接增强上下文理解并保持细粒度细节，同时对抗学习在潜在扩散过程中对齐不同领域之间的潜在特征分布。在GTA5、Synthia和Cityscapes上的实验表明，ICCLD 在与当前最先进的UDA方法相比时表现出色，分别在GTA5→Cityscapes和Synthia→Cityscapes上实现了74.4和67.2的mIoU得分。