摘要
arXiv:2410.15234v2 宣告类型: 更改
摘要: 模型崩溃现象是指由于无差别的使用合成数据而导致模型性能下降,这一现象已得到了充分研究。然而,合成数据在大型语言模型(Large Language Models, LLMs)中加剧偏见、即逐步加强预存的社会偏见的作用仍然未被充分探索。在本文中,我们正式定义了偏见放大条件,并通过统计模拟表明,即使在没有采样误差的情况下,偏见也可能会加剧,这是模型崩溃的主要驱动因素。实证上,我们使用自定义的基准测试探讨了GPT2在句子续写任务中的政治偏见放大现象。我们的发现揭示了右倾偏见逐渐增加的情况。此外,我们评估了三种缓解策略:过拟合、保存和累积,并表明即使在缓解模型崩溃的情况下,偏见放大仍然存在。最后,机制解释识别了不同神经元集分别对模型崩溃和偏见放大的责任,这表明它们源于不同的潜在机制。