摘要
arXiv:2503.19654v2 通知类型: replace-cross
摘要: 我们介绍了RGB-Th-Bench,这是第一个用于评估视觉-语言模型(VLMs)理解RGB-热成像图像对能力的基准。尽管VLMs在视觉推理和多模态理解方面取得了显著进展,但它们的评估仍主要局限于基于RGB的基准,这在评估它们在红外视觉任务中的能力方面留下了关键缺口。现有的可见光-红外数据集要么是任务特定的,要么缺乏进行严格模型评估所需的高质量注释。为了解决这些限制,RGB-Th-Bench提供了一个全面的评估框架,涵盖了14个不同的技能维度,总共有1,600多个由专家标注的Yes/No问题。基准测试采用两种准确度指标:标准的问题级准确度和更严格的技能级准确度,后者评估模型在每个技能维度内多个问题中的鲁棒性。这种设计确保了对模型性能进行全面评估,包括对其对抗性和幻觉响应的抗性。我们在19个最先进的VLMs上进行了广泛的评估,揭示了RGB-Thermal理解的巨大性能差距。我们的结果表明,即使是最强大的模型在理解热图像方面也面临挑战,其性能受到其基于RGB的能力的重大限制。此外,预训练中缺乏大规模的应用特定和专家标注的热成像图-说明对的数据集也是观察到的性能差距的重要原因之一。RGB-Th-Bench突显了需要进一步改进多模态学习,以弥合可见光和热图像理解之间的差距。该数据集可通过此链接获取,评估代码也将公开发布。