LLM2D

摘要

arXiv:2411.15557v3 宣告类型: replace-cross 摘要：无监督领域适应仍然是使模型在未见领域之间进行知识迁移的关键挑战。现有方法在平衡保持域不变表示与保留特定域特征的需求之间存在困难，这通常是由于将具有相似语义的样本在潜在空间中的投影限制在绝对坐标附近的对齐方法造成的，尽管这些样本在域之间存在显著差异。我们提出了 LAGUNA - 基于语言的无监督适应与结构化空间，这是一种新颖的方法，将注意力从在绝对坐标中对齐表示转移到对潜在空间中等效概念的相对定位对齐。LAGUNA 在语言空间中语义/几何关系之上定义了一种域无关的结构，并指导适应，确保在视觉空间中的样本组织反映了参考跨类别关系，同时保留特定域的特征。我们通过在四个不同的图像和视频数据集上的域适应任务中实证证明了LAGUNA的优势。特别的是，LAGUNA 在四个不同的图像和视频数据集的 18 种不同的适应场景中击败了先前的工作，在 DomainNet 上准确率平均提高了 +3.32%，在 GeoPlaces 上提高了 +5.75%，在 GeoImnet 上提高了 +4.77%，在 EgoExo4D 的平均类别准确率提高了 +1.94%。