LLM2D

摘要

arXiv:2502.04470v1 公告类型: cross 摘要：本文探讨了如何在目前人工智能领域最具影响力的视觉语言模型 CLIP（对比语言-图像预训练）中编码颜色。通过对为此任务创建的合成数据集进行不同的实验后，我们得出结论，CLIP 能够为带有颜色的视觉刺激赋予正确的颜色标签，但发现了两个主要缺陷：（a）对与颜色概念关系较弱的中性色刺激有明显的偏好偏差，因此白色、灰色和黑色很少被赋予颜色标签；以及（b）倾向于优先考虑文本信息，而忽视其他视觉信息。我们通过详尽的圣罗opes效应测试证明了这一点。为了找出这些颜色缺陷的原因，我们从神经元层面分析了内部表示。我们得出的结论是，CLIP 在网络的深层网络中表现出大量对文本具有选择性的神经元，以及少量的多模态颜色神经元，这些多模态颜色神经元可能是正确理解颜色概念的关键。我们的研究强调，在神经网络中精炼颜色表示机制的必要性，以便更好地理解人类对颜色的认知，从而提升像 CLIP 这样的多模态模型在实际应用场景中的效果和灵活性。