LLM2D

摘要

arXiv:2505.09168v1 编码类型: cross 摘要：伪装目标检测(COD)的核心挑战在于目标与背景在颜色、纹理和形状方面的难以区分的相似性。这导致现有方法要么因为过度依赖全局语义信息而丢失边缘细节（如发丝般的细结构），要么在仅依赖局部特征时被相似的背景干扰（如植被模式）。我们提出了一种名为DRRNet的四位结构体系，其特征在于“上下文-细节-融合-精炼”管道，以解决这些问题。具体来说，我们引入了一个全方位上下文特征提取模块来捕获全局伪装模式，并引入了一个局部细节提取模块来补充全场景上下文模块中的微结构信息。然后，我们设计了一个模块来形成场景理解和结构意识的双重表示，该模块融合了不同尺度的全景特征和局部特征。在解码器中，我们还引入了一个逆精炼模块，利用空间边缘先验和频域噪声抑制，对输出进行两级逆精炼。通过连续两次逆精炼，模型有效地抑制了背景干扰并增强了对象边界的连续性。实验结果表明，DRRNet在基准数据集上显著优于现有的最先进的方法。我们的代码可在https://github.com/jerrySunning/DRRNet获取。