摘要
arXiv:2503.19654v1 剪贴类型: cross
摘要: 我们引入了RGB-Th-Bench,这是第一个旨在评估视觉语言模型(Vision-Language Models, VLMs)理解RGB与热像配对图像能力的基准。尽管VLMs在视觉推理和多模态理解方面取得了显著进步,但其评估主要限于基于RGB的基准,留下了对其在红外视觉任务中能力评估的关键缺口。现有的可见光-红外光数据集要么任务特定,要么缺乏用于严格模型评估的高质量注释。为了解决这些限制,RGB-Th-Bench 提供了一个全面的评估框架,涵盖了14个不同的技能维度,共有1,600多个专家注释的“是”或“否”问题。基准采用了两个准确度指标:标准的问题级别准确度和更严格的技能级别准确度,后者评估模型在每个技能维度内的多个问题中的鲁棒性。这一设计确保了对模型性能的全面评估,包括对对抗性和幻觉响应的抵御能力。我们在19个最先进的视觉语言模型上进行了广泛的评估,揭示了RGB-热像理解能力的巨大性能差距。我们的结果表明,即使最强的模型在理解热像时也存在困难,其性能受到基于RGB的能力的严重影响。此外,预训练中缺乏大规模的应用特定和专家注释的热图像配对数据集也是观察到的性能差距的重要原因之一。RGB-Th-Bench 强调了进一步推进多模态学习以缩小可见光和热像理解之间的差距的紧迫需求。数据集可通过此链接获取,评估代码也将公开发布。