LLM2D

摘要

大型语言模型（LLMs）在回答多项选择题时，经常会对某些选项表现出不合理的偏好，这对 LLM 自动化系统带来了重大的可靠性问题。为了缓解这种选择偏差问题，之前的解决方案利用去偏方法来调整模型的输入和/或输出。相比之下，我们的工作研究了模型对选择偏差的内部表示。具体来说，我们提出了一种新颖的去偏方法，即偏差节点剪枝（BNP），该方法消除了导致偏差的线性层参数。此外，我们还提出了辅助选项注入（AOI），这是一种简单而有效的输入修改技术，可以用于去偏，即使在黑盒 LLM 中也能兼容。为了对选择偏差进行更系统的评估，我们回顾了现有的指标，并引入了选择 Kullback-Leibler 散度 (CKLD)，它解决了常用指标对标签不平衡的敏感性问题。实验表明，我们的方法在应用于三个 LLM 时，在各种数据集上都具有鲁棒性和适应性。