摘要
arXiv:2504.07982v1 宣告类型: cross
摘要:大规模语言模型(LLMs)在自然语言处理领域取得了显著进展,但仍然容易受到公平性相关问题的影响,这些问题经常反映出其训练数据中存在的偏见。这些偏见在LLMs在医疗保健、金融和法律等敏感领域部署时带来了风险。本文介绍了一种元型测试方法,用于系统地识别LLMs中的公平性错误。我们定义并应用于评估LLaMA和GPT模型(目前最先进的LLM)的一组以公平性为导向的元型关系(MRs),这些模型接收各种人口统计学输入。我们的方法包括为每个MR生成源测试用例和后续测试用例,并分析模型响应以检测公平性违规。结果表明,元型测试在揭示与语气和情感相关的偏见模式方面特别有效,并具体指出了敏感属性的交集,这些交集经常暴露出公平性错误。这项研究在LLMs中改进了公平性测试,提供了一种结构化的方法来检测和减轻偏见,从而在公平性敏感的应用中提高模型的鲁棒性。