LLM2D
LVLM-计数:增强大型视觉-语言模型的计数能力
LVLM-COUNT: Enhancing the Counting Ability of Large Vision-Language Models
作者: Muhammad Fetrat Qharabagh, Mohammadreza Ghofrani, Kimon Fountoulakis
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2412.00686v2

摘要

arXiv:2412.00686v2 宣告类型: replace-cross 摘要:计数是各种现实应用视觉任务中的基本操作,需要同时具备物体识别和稳健的计数能力。尽管大型视觉-语言模型(LVLMs)具有先进的视觉感知能力,但在处理计数任务时却面临挑战,尤其是当物体的数量超过训练期间常见的数量时。我们通过分解-征服方法来增强LVLMs的计数能力,将计数问题分解为子计数任务。我们的方法采用了机制,以防止分解并从而避免对物体的重复计数,这在朴素的分解-征服方法中会发生。与之前的方法不同,这些方法在从未训练过的计数数据集上表现不佳,我们的方法在新的数据集上表现出色,无需任何额外的训练或微调。我们证明了我们的方法能够跨多种数据集和基准提高LVLMs的计数能力。