摘要
arXiv:2504.15941v2 公告类型: 替换-交叉
摘要:大型语言模型(LLMs)在翻译任务中的应用越来越普遍,但在翻译包容性语言时往往表现不佳——例如包含单数“他们”代词的文本或反映公平语言规范的其他文本。由于这些挑战横跨计算和社会领域,因此迫切需要通过一个坚实的方法论来批判性地评估LLMs在处理包容性翻译方面的表现。
本文介绍了一个名为FairTranslate的新颖且完全由人类注释的数据集,旨在评估从英语翻译成法语的机器翻译系统中的双非二元性别偏见。FairTranslate包含2418个涉及职业的英法双语句子对,并标注了丰富的元数据,包括职业的刻板印象对齐、语法性别指标的模糊性以及实际性别标签(男性、女性或包容型)。
我们使用四种领先的LLM(Gemma2-2B、Mistral-7B、Llama3.1-8B、Llama3.3-70B)在不同提示程序下对该数据集进行了评估。我们的结果显示,LLM在性别代表方面的存在显著偏差,突显了在机器翻译中实现公平结果的持久挑战。这些发现强调了需要制定针对性策略和干预措施,以确保基于LLM的翻译系统中使用公平和包容的语言。
我们已将FairTranslate数据集在Hugging Face上公开,并在GitHub上披露了所有实验的代码。