LLM2D

摘要

arXiv:2409.12249v2 通告类型: 交叉替换摘要: 无范例计数旨在无需对物体或范例进行密集注释的情况下，计数感兴趣的目标物体。为此，我们提出了一种门控上下文感知 Swin-UNet (GCA-SUNet) 来直接将输入图像映射为可计数物体的密度图。具体而言，由一组 Swin 变形器形成的编码器用于提取 robust 特征表示，而设计了一种门控上下文感知调制块，通过门机制抑制不相关的物体或背景，并通过自相似矩阵利用对感兴趣物体的注意力支持。门控策略也被整合到Swin-UNet 的瓶颈网络和解码器中，以突出最相关于感兴趣物体的特征。通过明确利用可计数物体之间的注意力支持，并通过门机制消除不相关特征，提出的 GCA-SUNet 集中于并计数感兴趣物体，而无需依赖预定义的类别或范例。在实时数据集如 FSC-147 和 CARPK 上的实验结果表明，GCA-SUNet 在现有方法中显著且一致地表现更优。代码可在 https://github.com/Amordia/GCA-SUNet 获取。