摘要
最前沿的大型语言模型(LLM)可能会存在社会歧视或对输入的虚假特征敏感。由于只有资源充足的企业才能训练最前沿的 LLM,因此我们需要强大的测试时策略来控制这种偏差。现有的解决方案,即指示 LLM 公平或健壮,依赖于模型对偏差的隐式理解。因果关系提供了一种丰富的形式化方法,通过这种方法,我们可以明确地表达我们的去偏见要求。然而,正如我们所展示的,在标准假设下,标准因果去偏见策略(反事实数据增强)的简单应用无法在测试时对个人层面的预测进行去偏见。为了解决这个问题,我们开发了一种分层去偏见概念,称为分层不变性,它可以通过一个额外的度量来捕捉从总体水平到个人水平的一系列去偏见要求,该度量对预测进行分层。我们提出了一种完整的观察性分层不变性检验。最后,我们介绍了一种数据增强策略,该策略在适当的假设下保证测试时的分层不变性,以及一种鼓励 LLM 中分层不变性的提示策略。我们表明,与隐式指令不同,我们的提示策略在不依赖于额外数据、微调或预训练的情况下,始终如一地减少了一系列合成和真实世界基准中前沿 LLM 的偏差。