LLM2D

摘要

arXiv:2504.07982v1 宣告类型: cross 摘要：大规模语言模型（LLMs）在自然语言处理领域取得了显著进展，但仍然容易受到公平性相关问题的影响，这些问题经常反映出其训练数据中存在的偏见。这些偏见在LLMs在医疗保健、金融和法律等敏感领域部署时带来了风险。本文介绍了一种元型测试方法，用于系统地识别LLMs中的公平性错误。我们定义并应用于评估LLaMA和GPT模型（目前最先进的LLM）的一组以公平性为导向的元型关系（MRs），这些模型接收各种人口统计学输入。我们的方法包括为每个MR生成源测试用例和后续测试用例，并分析模型响应以检测公平性违规。结果表明，元型测试在揭示与语气和情感相关的偏见模式方面特别有效，并具体指出了敏感属性的交集，这些交集经常暴露出公平性错误。这项研究在LLMs中改进了公平性测试，提供了一种结构化的方法来检测和减轻偏见，从而在公平性敏感的应用中提高模型的鲁棒性。