摘要
arXiv:2502.03429v1 公告类型: cross
摘要:统一多模态大型语言模型(U-MLLMs)在端到端流水线中展示了令人印象深刻的视觉理解和生成性能。与仅生成模型(例如,Stable Diffusion)相比,U-MLLMs 可能会在其输出中引发新的偏见问题,这些偏见可能受到其统一能力的影响。考虑到传播有害刻板印象的未探索风险,这一差距尤为令人担忧。在本文中,我们对最新的 U-MLLMs 进行基准测试,并发现大多数模型表现出显着的人口统计学偏见,如性别和种族偏见。为了更好地理解和缓解这一问题,我们提出了一种“定位-修复”策略,其中我们审计并展示了每个模型组件受到偏见影响的情况。我们的分析显示,偏见主要源自语言模型。更有趣的是,我们观察到 U-MLLMs 中存在“部分对齐”现象,其中理解偏见似乎最少,但生成偏见仍然显著。因此,我们提出了一个新颖的平衡偏好模型,通过合成数据来平衡人口统计学分布与语义保真度。实验表明,我们的方法在减少人口统计学偏见的同时保留了语义保真度。我们希望我们的发现强调了未来对 U-MLLMs 进行更全面的解释和去偏见策略的需求。