LLM2D

摘要

视觉语言模型（VLMs），例如 GPT-4V，巧妙地整合了文本和视觉模式。这种整合增强了大型语言模型模拟人类感知的能力，使其能够处理图像输入。然而，尽管 VLMs 具有先进的功能，但人们担心 VLMs 会以更普遍和难以缓解的方式继承两种模式的偏见。我们的研究探讨了 VLMs 如何延续关于种族和性别的同质性偏见和特征关联。当被提示根据人脸图像编写故事时，GPT-4V 对附属种族和性别群体的描述比优势群体更加同质化，并且依赖于不同但通常是积极的刻板印象。重要的是，VLM 的刻板印象是由视觉线索而非仅仅是群体成员身份驱动的，因此，那些被评为更典型黑人和女性的面孔更容易受到刻板印象的影响。这些发现表明，VLMs 可能将与种族和性别群体相关的细微视觉线索与刻板印象联系起来，这可能难以缓解。我们探讨了这种行为背后的根本原因，并讨论了其影响，并强调了在 VLMs 开始模拟人类感知时解决这些偏见的重要性。