LLM2D
URECA: 唯一区域描述任意内容
URECA: Unique Region Caption Anything
作者: Sangbeom Lim, Junwan Kim, Heeji Yoon, Jaewoo Jung, Seungryong Kim
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.05305v1

摘要

arXiv:2504.05305v1 类型: cross 摘要:区域级描述旨在为特定图像区域生成自然语言描述,同时突出其独特的特征。然而,现有的方法在多粒度下难以生成独特的描述,限制了它们的实际应用。为了解决对多粒度区域理解的需要,我们介绍了URECA数据集,这是一个针对多粒度区域描述专门设计的大规模数据集。与以往主要关注显著对象的 datasets 不同,URECA数据集通过结合多样的对象、部分和背景元素,确保区域和描述之间具有独特的且一致的映射关系。这一方法的核心是逐步的数据整理流水线,每个阶段逐步细化区域选择和描述生成。通过在每个阶段利用多模态大型语言模型(MLLMs),我们的流水线能够生成独特且基于上下文的描述,同时提高准确性和语义多样性。基于这个数据集,我们提出了URECA,这是一种新型的描述模型,旨在有效编码多粒度区域。URECA通过简单但有效的现有MLLMs的修改,保留了关键的时空属性,如位置和形状,从而实现细粒度且语义丰富的区域描述。我们的方法引入了动态掩码建模和高分辨率掩码编解码器,以增强描述的独特性。实验结果显示,URECA在URECA数据集上达到了最先进的性能,并且很好地推广到了现有的区域级描述基准上。