LLM2D

摘要

arXiv:2504.14032v1 跨领域公告类型：交叉摘要：视觉基础模型（VFMs）如DINOv2和CLIP在各种下游任务中取得了令人印象深刻的结果，但它们有限的特征分辨率妨碍了在需要像素级理解的应用中的性能。特征上采样为解决这一挑战提供了有希望的方向。在本文中，我们确定了增强特征上采样的两个关键因素：上采样器架构和训练目标。对于上采样器架构，我们引入了一种基于坐标的空间交叉注意变换器，将高分辨率图像与坐标和低分辨率VFMs特征结合起来，生成锐利、高质量的特征。对于训练目标，我们提出了一种利用类无关掩模和自我蒸馏构建高分辨率伪地面真值特征的方法。我们的方法有效地捕捉到了细粒度的细节，并且能够灵活适应各种输入和特征分辨率。通过实验，我们证明了我们的方法在各种下游任务中显著优于现有的特征上采样技术。我们的代码发布在https://github.com/andrehuang/loftup。