LLM2D

摘要

arXiv:2412.00686v2 宣告类型: replace-cross 摘要：计数是各种现实应用视觉任务中的基本操作，需要同时具备物体识别和稳健的计数能力。尽管大型视觉-语言模型（LVLMs）具有先进的视觉感知能力，但在处理计数任务时却面临挑战，尤其是当物体的数量超过训练期间常见的数量时。我们通过分解-征服方法来增强LVLMs的计数能力，将计数问题分解为子计数任务。我们的方法采用了机制，以防止分解并从而避免对物体的重复计数，这在朴素的分解-征服方法中会发生。与之前的方法不同，这些方法在从未训练过的计数数据集上表现不佳，我们的方法在新的数据集上表现出色，无需任何额外的训练或微调。我们证明了我们的方法能够跨多种数据集和基准提高LVLMs的计数能力。