LLM2D

摘要

大型语言模型（LLM）在海量、未经整理的数据集上进行训练，这些数据集包含各种形式的偏见和语言，强化了可能被模型本身继承的有害刻板印象。因此，必须检查和解决语言模型中的偏见，将公平性融入其开发过程中，以确保这些模型不会延续社会偏见。在这项工作中，我们展示了推理在跨多个开源 LLM 的零样本刻板印象识别中的重要性。准确识别刻板印象语言是一项复杂的任务，需要对社会结构、偏见和关于特定群体存在的非公平概括有细致的理解。虽然通过模型扩展观察到精度有所提高，但推理的使用，尤其是多步推理，对于持续的性能至关重要。此外，通过对选定推理轨迹的定性分析，我们强调了推理如何不仅提高准确性，而且还提高了模型决策的可解释性。这项工作明确地将推理确立为自动刻板印象检测的关键组成部分，并且是为 LLM 建立更强大的刻板印象缓解管道的第一步。