LLM2D

摘要

arXiv:2504.05305v1 类型: cross 摘要：区域级描述旨在为特定图像区域生成自然语言描述，同时突出其独特的特征。然而，现有的方法在多粒度下难以生成独特的描述，限制了它们的实际应用。为了解决对多粒度区域理解的需要，我们介绍了URECA数据集，这是一个针对多粒度区域描述专门设计的大规模数据集。与以往主要关注显著对象的 datasets 不同，URECA数据集通过结合多样的对象、部分和背景元素，确保区域和描述之间具有独特的且一致的映射关系。这一方法的核心是逐步的数据整理流水线，每个阶段逐步细化区域选择和描述生成。通过在每个阶段利用多模态大型语言模型（MLLMs），我们的流水线能够生成独特且基于上下文的描述，同时提高准确性和语义多样性。基于这个数据集，我们提出了URECA，这是一种新型的描述模型，旨在有效编码多粒度区域。URECA通过简单但有效的现有MLLMs的修改，保留了关键的时空属性，如位置和形状，从而实现细粒度且语义丰富的区域描述。我们的方法引入了动态掩码建模和高分辨率掩码编解码器，以增强描述的独特性。实验结果显示，URECA在URECA数据集上达到了最先进的性能，并且很好地推广到了现有的区域级描述基准上。