LLM2D

摘要

人工智能系统严重依赖人工评级，但这些评级往往会被聚合，从而掩盖了现实世界现象中固有的观点多样性。在评估生成式 AI 的安全性时，这一点尤其令人担忧，因为感知和相关的危害会在不同的社会文化背景下发生显著变化。虽然最近的研究已经研究了人口统计差异对文本标注的影响，但人们对这些主观差异如何影响生成式 AI 的多模态安全性的理解有限。为了解决这个问题，我们进行了一项大规模研究，对来自人口统计学多样化评级者群体（630 名评级者，在年龄、性别和种族方面平衡分布于 30 个交叉群体）的约 1000 个文本到图像 (T2I) 生成进行了高度并行的安全性评级。我们的研究表明：(1) 不同人口统计群体（包括交叉群体）之间在评估危害严重程度方面存在显著差异，而这些差异在不同类型的安全违规行为中有所不同；(2) 多样化的评级者群体捕捉到的标注模式与接受过特定安全策略培训的专家评级者大相径庭；(3) 我们在 T2I 安全性中观察到的差异与先前记录的基于文本的安全任务中的群体层面差异不同。为了进一步理解这些不同的观点，我们对评级者提供的开放式解释进行了定性分析。这项分析揭示了不同群体感知 T2I 生成危害的原因的核心差异。我们的研究结果强调了将不同视角纳入生成式 AI 安全性评估的迫切需要，以确保这些系统真正具有包容性，并反映所有用户的价值观。