摘要
arXiv:2503.19654v3 通知类型: 替换-交叉
摘要: 我们引入了RGB-Th-Bench,这是首个旨在评估视觉语言模型(VLMs)理解RGB-热图像对能力的基准。尽管VLMs已经在视觉推理和多模态理解方面取得了显著进展,但它们的评估主要局限于基于RGB的基准,从而在评估其在红外视觉任务方面的能力方面留下了关键的空白。目前可用的可见光-红外数据集要么是特定任务的,要么缺乏进行严格模型评估所需的高度质量注释。为解决这些局限性,RGB-Th-Bench提供了涵盖14个不同技能维度的全面评估框架,并提供了1,600多道专家注释的Yes/No问题。基准采用了两种准确度度量标准:标准的问题级别准确度和更为严格的技能级别准确度,后者评估了模型在每个技能维度内的多个问题中的鲁棒性。这种设计确保了对模型性能进行详尽评估,包括对抗性和幻觉性响应的抗性。我们对19个最新的VLMs进行了广泛的评估,揭示了在RGB-热图像理解方面的显著性能差距。我们的结果显示,即使是最强的模型在理解热图像方面也面临挑战,其性能受到基于RGB的能力的严格限制。此外,预训练中缺乏大规模应用特定和专家注释的热图像和热图像描述对的大规模数据集也是观察到的性能差距的一个重要原因。RGB-Th-Bench突显了在可见光和红外图像理解之间缩小差距进一步改进多模态学习的迫切需求。该数据集可通过该链接获取,并且评估代码也将公开提供。