LLM2D

摘要

arXiv:2412.19331v2 宣布类型: 替换交叉摘要：最近在大型视觉语言模型（LVLMs）方面的进展使通过视觉指令微调实现通用视觉任务成为可能。虽然现有的LVLMs可以从文本提示生成单张图像的分割掩码，但在跨图像的分割基础推理方面遇到了困难，尤其是在物体部分等细粒度方面。在这篇论文中，我们引入了新的部分聚焦语义联合分割任务，该任务涉及识别和分割跨图像的共同物体以及共同和独特的物体部分。为了解决这一任务，我们提出了CALICO，这是第一个专门为多图像部分级推理分割设计的LVLM。CALICO具有两个关键组件：一个新的对应提取模块，用于识别语义部分级对应关系，以及适应模块，将这些信息嵌入LVLM中，以在参数高效的方式促进多图像理解。为了支持训练和评估，我们整理了包含约240万个样本的大规模多图像分割数据集MixedParts，这些样本涉及约44000张图像，涵盖了多样化的物体和部分类别。实验结果表明，尽管CALICO只有其参数的0.3%经过微调，但在这一具有挑战性的任务上表现出了强大的性能。