LLM2D

摘要

arXiv:2503.23786v1 多视图类型：交叉摘要：段切一切模型（SAMs）作为视觉基础模型，在各种图像分析任务中展现了出色的性能。尽管它们具有强大的泛化能力，但在高分辨率类别无关分割（HRCS）任务中进行精细细节分割时，SAMs 遇到了挑战，因为它们在直接处理高分辨率输入和低分辨率掩码预测方面存在限制，并且依赖于准确的手动提示。为了解决这些限制，我们提出了 MGD-SAM2，它将 SAM2 与全局图像和局部片段之间的多视图特征交互结合，以实现精确的分割。MGD-SAM2 结合了预训练的 SAM2 与四个新模块：多视图感知适配器（MPAdapter）、多视图互补增强模块（MCEM）、层次多视图交互模块（HMIM）以及细节精炼模块（DRM）。具体而言，我们首先引入 MPAdapter 以增强 SAM2 编码器对 HRCS 图像中局部细节和全局语义的提取。然后提出了 MCEM 和 HMIM 以通过在跨多尺度中聚合多视图特征进一步利用局部纹理和全局上下文。最后，设计了 DRM 以生成逐渐恢复的高分辨率掩码预测，补偿直接上采样低分辨率预测图所导致的细微细节损失。实验结果表明，我们的模型在多个高分辨率和常规分辨率数据集上具有优越性能和强大的泛化能力。代码将在 https://github.com/sevenshr/MGD-SAM2 可用。