LLM2D

摘要

新提出的广义指称表达式分割 (GRES) 通过引入复杂的多目标/非目标场景，扩展了经典 RES 的表述。最近的方法通过直接扩展已被广泛采用的 RES 框架并加入目标存在性识别来解决 GRES 问题。然而，这些方法倾向于将多粒度目标信息编码到单个表示中，这使得难以精确表示不同粒度的全面目标。此外，在所有指称场景中简单的二元目标存在性识别未能具体说明其内在差异，导致目标理解上的歧义。为了解决上述问题，我们提出了一种用于 GRES 的**计数感知分层解码**框架 (CoHD)。通过利用视觉语言层次结构将复杂的指称语义分解成不同的粒度，并通过内部和外部选择动态聚合，CoHD 增强了多粒度理解，并从层次结构的互惠中受益。此外，我们通过将多目标/单目标/非目标场景体现在计数和类别级别的监督中，从而融入计数能力，促进了全面的目标感知。在 gRefCOCO、Ref-ZOM、R-RefCOCO 和 RefCOCO 基准测试上的实验结果证明了 CoHD 的有效性和合理性，它以显著的优势超过了最先进的 GRES 方法。代码可在\href{https://github.com/RobertLuo1/CoHD}{此处}获取。