LLM2D

摘要

arXiv:2504.15941v1 类型:交叉摘要：大型语言模型（LLMs）越来越多地被用于翻译任务，但在翻译包容性语言时常常表现不佳——例如包含单数“they”代词的文本或以其他方式体现公平的语言规范。由于这些挑战跨越了计算和社会领域，因此亟需从一个坚实的框架出发，批判性地评估LLMs在包容性翻译方面的处理能力。本文介绍了FairTranslate，这是一个全新的、完全由人类注释的数据集，旨在评估英法翻译系统中的非二元性别偏见。FairTranslate 包括2418个与职业相关的英法句子对，并进行了丰富元数据的注释，包括职业的刻板印象对齐、语法性别指示的模糊性以及真实的性别标签（男性、女性或包容性）。我们使用四种领先的LLM（Gemma2-2B、Mistral-7B、Llama3.1-8B、Llama3.3-70B）在不同的提示程序下对FairTranslate数据集进行了评估。我们的结果揭示了LLMs在性别表示方面的显著偏见，突显了在机器翻译中实现公平结果的持续挑战。这些发现强调了在基于LLM的翻译系统中确保公平和包容的语言使用需要有重点的策略和干预措施。我们将FairTranslate数据集在Hugging Face上公开，并在GitHub上披露了所有实验的代码。