摘要
在大型数据集上预训练的视觉语言模型 (VLMs) 会无意中通过将性别信息与特定的物体或场景关联起来而学习到偏差。当前的方法侧重于修改输入并监控模型输出概率分数的变化,往往难以从模型组件的角度全面理解偏差。我们提出一个框架,该框架结合因果中介分析来衡量和映射 VLMs 内偏差产生和传播的路径。这种方法使我们能够识别干预对模型偏差的直接影响以及干预对通过不同模型组件进行中介的偏差的间接影响。我们的结果表明,图像特征是偏差的主要贡献者,其影响远高于文本特征,分别在 MSCOCO 和 PASCAL-SENTENCE 数据集中占偏差的 32.57% 和 12.63%。值得注意的是,图像编码器的贡献超过了文本编码器和深度融合编码器。进一步的实验证实,语言和视觉模态的贡献是一致且不冲突的。因此,专注于模糊图像编码器中的性别表示(对模型偏差贡献最大),可以有效地减少 MSCOCO 和 PASCAL-SENTENCE 数据集中 22.03% 和 9.04% 的偏差,同时最大限度地减少性能损失或增加计算需求。