LLM2D

摘要

arXiv:2504.10514v1 交叉公告类型：benchmarks 摘要：颜色在人类感知中扮演着重要角色，通常为视觉推理提供关键线索。然而，尚不清楚视觉语言模型（VLMs）是否以及如何感知、理解和利用颜色如同人类一样。本文介绍了ColorBench，这是一个创新的基准测试，旨在评估VLMs在颜色理解方面的能力，包括颜色感知、推理和稳健性。通过精心编排多样化的测试场景，ColorBench基于实际应用进行评估，考察这些模型如何感知颜色、从基于颜色的线索推断意义，并在不同颜色变换下保持一致的性能。通过对32个不同语言模型和视觉编码器的VLMs进行全面评估，我们的论文揭示了一些未被发现的发现：(i) 在ColorBench上，规模法则（即更大的模型表现更好）仍然适用，但语言模型比视觉编码器起着更重要的作用。 (ii) 不同模型之间表现差异相对较小，表明现有VLMs对颜色理解的重视程度不足。 (iii) 后验推理提高了颜色理解的准确性和稳健性，尽管这些任务以视觉为中心。 (iv) VLMs在ColorBench上确实利用了颜色线索，但在某些任务中也会被误导。这些发现突显了当前VLMs的关键局限性，并强调了增强颜色理解的必要性。我们的ColorBench可以作为推动多模态人工智能中人类级颜色理解研究的基础工具。