摘要
近年来,视觉语言模型(VLMs)的进步使得通过同时处理文本和图像数据来完成复杂的多模态任务成为可能,极大地促进了人工智能领域的发展。然而,这些模型往往表现出偏见,可能导致输出结果倾向于社会刻板印象,因此需要去偏见策略。现有的去偏见方法过于局限于特定的模态或任务,且需要大量重新训练。为了解决这些局限性,本文提出了一种新的方法——选择性特征插补去偏见(SFID),该方法将特征修剪和低置信度插补(LCI)相结合,有效地减少了 VLMs 中的偏见。SFID 具有通用性,能够保持输出的语义完整性,并且通过消除重新训练的需要而具有成本效益。我们的实验结果表明,SFID 在各种 VLMs 任务中都表现出有效性,包括零样本分类、文本到图像检索、图像字幕和文本到图像生成,它显著减少了性别偏见,而不会影响性能。这种方法不仅增强了 VLMs 应用的公平性,而且保留了其在各种场景中的效率和实用性。