LLM2D

摘要

arXiv:2501.10150v2 宣告类型: replace-cross 摘要: 弱化偏见，例如语言模型对性别刻板印象的依赖，是创建可靠且有用的语言技术所需的 crucial 努力。削弱偏见的关键在于确保模型保留其多功能性，包括其解决语言任务和公平表示各种性别的能力。为了解决这一问题，我们提出了一个简化的通过模型适应实现双重弱化算法 (2DAMA)。新型双重弱化能够在削弱刻板印象偏见的同时保留语言模型编码的所需事实性别信息。我们表明，2DAMA 有效地减少了英语中的性别偏见，并且是第一个帮助减少翻译中刻板印象倾向的方法之一。所提出的方法的关键优势在于保留了事实上的性别线索，这些线索在各种自然语言处理任务中都非常有用。