LLM2D
ColorBench:VLMs能看见并理解多彩的世界吗?一个全面的颜色感知、推理和鲁棒性基准测试
ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness
作者: Yijun Liang, Ming Li, Chenrui Fan, Ziyue Li, Dang Nguyen, Kwesi Cobbina, Shweta Bhardwaj, Jiuhai Chen, Fuxiao Liu, Tianyi Zhou
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.10514v1

摘要

arXiv:2504.10514v1 交叉公告类型:benchmarks 摘要:颜色在人类感知中扮演着重要角色,通常为视觉推理提供关键线索。然而,尚不清楚视觉语言模型(VLMs)是否以及如何感知、理解和利用颜色如同人类一样。本文介绍了ColorBench,这是一个创新的基准测试,旨在评估VLMs在颜色理解方面的能力,包括颜色感知、推理和稳健性。通过精心编排多样化的测试场景,ColorBench基于实际应用进行评估,考察这些模型如何感知颜色、从基于颜色的线索推断意义,并在不同颜色变换下保持一致的性能。通过对32个不同语言模型和视觉编码器的VLMs进行全面评估,我们的论文揭示了一些未被发现的发现:(i) 在ColorBench上,规模法则(即更大的模型表现更好)仍然适用,但语言模型比视觉编码器起着更重要的作用。 (ii) 不同模型之间表现差异相对较小,表明现有VLMs对颜色理解的重视程度不足。 (iii) 后验推理提高了颜色理解的准确性和稳健性,尽管这些任务以视觉为中心。 (iv) VLMs在ColorBench上确实利用了颜色线索,但在某些任务中也会被误导。这些发现突显了当前VLMs的关键局限性,并强调了增强颜色理解的必要性。我们的ColorBench可以作为推动多模态人工智能中人类级颜色理解研究的基础工具。