摘要
大型语言模型 (LLM) 的最新进展已使其成为强大的临床决策工具,并在医疗保健领域得到迅速应用。然而,关于偏见的担忧仍然是 LLM 在临床应用中的一个重大挑战,尤其是在性别和种族方面。本研究调查了应用于复杂临床案例的 LLM 中偏见的评估和缓解,重点关注性别和种族偏见。我们介绍了一个新的反事实病人变异 (CPV) 数据集,该数据集源自 JAMA 临床挑战赛。利用该数据集,我们构建了一个偏见评估框架,采用多项选择题 (MCQ) 及其相应的解释。我们探索了使用八个 LLM 进行提示和微调作为去偏方法。我们的研究结果表明,解决 LLM 中的社会偏见需要多维方法,因为减轻性别偏见可能会引入种族偏见,并且 LLM 嵌入中的性别偏见在不同医学专业之间差异很大。我们证明了评估 MCQ 回答和解释过程至关重要,因为正确的回答可能基于有偏见的 *推理*。我们提供了一个用于评估 LLM 在现实世界临床案例中偏见的框架,深入了解了这些模型中偏见的复杂性,并提出了偏见缓解策略。