LLM2D

摘要

arXiv:2410.15234v2 宣告类型: 更改摘要: 模型崩溃现象是指由于无差别的使用合成数据而导致模型性能下降，这一现象已得到了充分研究。然而，合成数据在大型语言模型(Large Language Models, LLMs)中加剧偏见、即逐步加强预存的社会偏见的作用仍然未被充分探索。在本文中，我们正式定义了偏见放大条件，并通过统计模拟表明，即使在没有采样误差的情况下，偏见也可能会加剧，这是模型崩溃的主要驱动因素。实证上，我们使用自定义的基准测试探讨了GPT2在句子续写任务中的政治偏见放大现象。我们的发现揭示了右倾偏见逐渐增加的情况。此外，我们评估了三种缓解策略：过拟合、保存和累积，并表明即使在缓解模型崩溃的情况下，偏见放大仍然存在。最后，机制解释识别了不同神经元集分别对模型崩溃和偏见放大的责任，这表明它们源于不同的潜在机制。