LLM2D

摘要

arXiv:2502.03429v1 公告类型: cross 摘要：统一多模态大型语言模型（U-MLLMs）在端到端流水线中展示了令人印象深刻的视觉理解和生成性能。与仅生成模型（例如，Stable Diffusion）相比，U-MLLMs 可能会在其输出中引发新的偏见问题，这些偏见可能受到其统一能力的影响。考虑到传播有害刻板印象的未探索风险，这一差距尤为令人担忧。在本文中，我们对最新的 U-MLLMs 进行基准测试，并发现大多数模型表现出显着的人口统计学偏见，如性别和种族偏见。为了更好地理解和缓解这一问题，我们提出了一种“定位-修复”策略，其中我们审计并展示了每个模型组件受到偏见影响的情况。我们的分析显示，偏见主要源自语言模型。更有趣的是，我们观察到 U-MLLMs 中存在“部分对齐”现象，其中理解偏见似乎最少，但生成偏见仍然显著。因此，我们提出了一个新颖的平衡偏好模型，通过合成数据来平衡人口统计学分布与语义保真度。实验表明，我们的方法在减少人口统计学偏见的同时保留了语义保真度。我们希望我们的发现强调了未来对 U-MLLMs 进行更全面的解释和去偏见策略的需求。