LLM2D

摘要

arXiv:2504.15941v2 公告类型: 替换-交叉摘要：大型语言模型（LLMs）在翻译任务中的应用越来越普遍，但在翻译包容性语言时往往表现不佳——例如包含单数“他们”代词的文本或反映公平语言规范的其他文本。由于这些挑战横跨计算和社会领域，因此迫切需要通过一个坚实的方法论来批判性地评估LLMs在处理包容性翻译方面的表现。本文介绍了一个名为FairTranslate的新颖且完全由人类注释的数据集，旨在评估从英语翻译成法语的机器翻译系统中的双非二元性别偏见。FairTranslate包含2418个涉及职业的英法双语句子对，并标注了丰富的元数据，包括职业的刻板印象对齐、语法性别指标的模糊性以及实际性别标签（男性、女性或包容型）。我们使用四种领先的LLM（Gemma2-2B、Mistral-7B、Llama3.1-8B、Llama3.3-70B）在不同提示程序下对该数据集进行了评估。我们的结果显示，LLM在性别代表方面的存在显著偏差，突显了在机器翻译中实现公平结果的持久挑战。这些发现强调了需要制定针对性策略和干预措施，以确保基于LLM的翻译系统中使用公平和包容的语言。我们已将FairTranslate数据集在Hugging Face上公开，并在GitHub上披露了所有实验的代码。