LLM2D

摘要

分割一切模型 (SAM) 提升了交互式分割的水平，但其在高分辨率图像上的高计算成本限制了其应用。这需要进行下采样以满足 GPU 的限制，从而牺牲了高精度交互式分割所需的细粒度细节。为了解决 SAM 的局限性，我们专注于视觉长度外推，并提出了一种名为 HRSAM 的轻量级模型。该外推方法使在低分辨率上训练的 HRSAM 能够泛化到高分辨率。我们首先找到外推和注意力分数之间的联系，这使我们能够基于 Swin 注意力构建 HRSAM。然后，我们引入了灵活局部注意力 (FLA) 框架，使用 CUDA 优化的高效内存注意力来加速 HRSAM。在 FLA 中，我们实现了 Flash Swin 注意力，与传统的 Swin 注意力相比，速度提高了 35% 以上，并提出了一种仅 KV 填充机制来增强外推能力。我们还开发了 Cycle-scan 模块，该模块使用状态空间模型来有效地扩展 HRSAM 的感受野。我们还在 FLA 中开发了 HRSAM++，通过添加锚点图，为外推提供多尺度数据增强，并在略微增加计算成本的情况下获得更大的感受野。实验表明，在标准训练下，HRSAM 以仅 38% 的延迟超过了之前的 SOTA。通过 SAM 蒸馏，外推使 HRSAM 在更低的延迟下优于教师模型。进一步的微调实现了显著超过之前 SOTA 的性能。