LLM2D
偏差放大:大型语言模型日益偏倚的媒体
Bias Amplification: Large Language Models as Increasingly Biased Media
作者: Ze Wang, Zekun Wu, Jeremy Zhang, Xin Guan, Navya Jain, Skylar Lu, Saloni Gupta, Adriano Koshiyama
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2410.15234v2

摘要

arXiv:2410.15234v2 宣告类型: 更改 摘要: 模型崩溃现象是指由于无差别的使用合成数据而导致模型性能下降,这一现象已得到了充分研究。然而,合成数据在大型语言模型(Large Language Models, LLMs)中加剧偏见、即逐步加强预存的社会偏见的作用仍然未被充分探索。在本文中,我们正式定义了偏见放大条件,并通过统计模拟表明,即使在没有采样误差的情况下,偏见也可能会加剧,这是模型崩溃的主要驱动因素。实证上,我们使用自定义的基准测试探讨了GPT2在句子续写任务中的政治偏见放大现象。我们的发现揭示了右倾偏见逐渐增加的情况。此外,我们评估了三种缓解策略:过拟合、保存和累积,并表明即使在缓解模型崩溃的情况下,偏见放大仍然存在。最后,机制解释识别了不同神经元集分别对模型崩溃和偏见放大的责任,这表明它们源于不同的潜在机制。