LLM2D
高分辨率图像高效交互式分割方法 (HRSAM)
HRSAM: Efficient Interactive Segmentation in High-Resolution Images
作者: You Huang, Wenbin Lai, Jiayi Ji, Liujuan Cao, Shengchuan Zhang, Rongrong Ji
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2407.02109v2

摘要

分割一切模型 (SAM) 提升了交互式分割的水平,但其在高分辨率图像上的高计算成本限制了其应用。这需要进行下采样以满足 GPU 的限制,从而牺牲了高精度交互式分割所需的细粒度细节。为了解决 SAM 的局限性,我们专注于视觉长度外推,并提出了一种名为 HRSAM 的轻量级模型。该外推方法使在低分辨率上训练的 HRSAM 能够泛化到高分辨率。我们首先找到外推和注意力分数之间的联系,这使我们能够基于 Swin 注意力构建 HRSAM。然后,我们引入了灵活局部注意力 (FLA) 框架,使用 CUDA 优化的高效内存注意力来加速 HRSAM。在 FLA 中,我们实现了 Flash Swin 注意力,与传统的 Swin 注意力相比,速度提高了 35% 以上,并提出了一种仅 KV 填充机制来增强外推能力。我们还开发了 Cycle-scan 模块,该模块使用状态空间模型来有效地扩展 HRSAM 的感受野。我们还在 FLA 中开发了 HRSAM++,通过添加锚点图,为外推提供多尺度数据增强,并在略微增加计算成本的情况下获得更大的感受野。实验表明,在标准训练下,HRSAM 以仅 38% 的延迟超过了之前的 SOTA。通过 SAM 蒸馏,外推使 HRSAM 在更低的延迟下优于教师模型。进一步的微调实现了显著超过之前 SOTA 的性能。