LLM2D

摘要

arXiv:2504.06160v1 Announce Type: 多领域交叉摘要：大规模语言模型（LLMs）已被证明对某些群体表现出不平衡的偏见。然而，LLMs 对处于风险中的群体进行无缘无故针对性攻击的研究仍较少探索。我们的论文提出了三项新颖贡献：（1）明确评估LLM生成的攻击，针对高度脆弱的心理健康群体；（2）基于网络的框架来研究相对偏见的传播；（3）评估这些攻击中出现的相对污名化程度。我们对近期发布的大规模偏见审计数据集的分析揭示，心理健康实体在攻击叙事网络中处于中心位置，表现为显著更高的接近中心性平均值（p值=4.06e-10）和稠密聚类（基尼系数=0.7）。基于污名化理论的社会学基础，我们的污名化分析表明，心理健康障碍相关的目标相对于生成链中的初始目标具有更多的标签化成分。这些洞察揭示了大规模语言模型在加剧有害言论方面结构上的倾向，突显了需要采取适当方法进行缓解的必要性。