摘要
大型语言模型(LLMs)在回答多项选择题时,经常会对某些选项表现出不合理的偏好,这对 LLM 自动化系统带来了重大的可靠性问题。为了缓解这种选择偏差问题,之前的解决方案利用去偏方法来调整模型的输入和/或输出。相比之下,我们的工作研究了模型对选择偏差的内部表示。具体来说,我们提出了一种新颖的去偏方法,即偏差节点剪枝(BNP),该方法消除了导致偏差的线性层参数。此外,我们还提出了辅助选项注入(AOI),这是一种简单而有效的输入修改技术,可以用于去偏,即使在黑盒 LLM 中也能兼容。为了对选择偏差进行更系统的评估,我们回顾了现有的指标,并引入了选择 Kullback-Leibler 散度 (CKLD),它解决了常用指标对标签不平衡的敏感性问题。实验表明,我们的方法在应用于三个 LLM 时,在各种数据集上都具有鲁棒性和适应性。