摘要
arXiv:2502.04470v1 公告类型: cross
摘要:本文探讨了如何在目前人工智能领域最具影响力的视觉语言模型 CLIP(对比语言-图像预训练)中编码颜色。通过对为此任务创建的合成数据集进行不同的实验后,我们得出结论,CLIP 能够为带有颜色的视觉刺激赋予正确的颜色标签,但发现了两个主要缺陷:(a)对与颜色概念关系较弱的中性色刺激有明显的偏好偏差,因此白色、灰色和黑色很少被赋予颜色标签;以及(b)倾向于优先考虑文本信息,而忽视其他视觉信息。我们通过详尽的圣罗opes效应测试证明了这一点。为了找出这些颜色缺陷的原因,我们从神经元层面分析了内部表示。我们得出的结论是,CLIP 在网络的深层网络中表现出大量对文本具有选择性的神经元,以及少量的多模态颜色神经元,这些多模态颜色神经元可能是正确理解颜色概念的关键。我们的研究强调,在神经网络中精炼颜色表示机制的必要性,以便更好地理解人类对颜色的认知,从而提升像 CLIP 这样的多模态模型在实际应用场景中的效果和灵活性。