LLM2D

摘要

大型语言模型 (LLM) 的最新进展已使其成为强大的临床决策工具，并在医疗保健领域得到迅速应用。然而，关于偏见的担忧仍然是 LLM 在临床应用中的一个重大挑战，尤其是在性别和种族方面。本研究调查了应用于复杂临床案例的 LLM 中偏见的评估和缓解，重点关注性别和种族偏见。我们介绍了一个新的反事实病人变异 (CPV) 数据集，该数据集源自 JAMA 临床挑战赛。利用该数据集，我们构建了一个偏见评估框架，采用多项选择题 (MCQ) 及其相应的解释。我们探索了使用八个 LLM 进行提示和微调作为去偏方法。我们的研究结果表明，解决 LLM 中的社会偏见需要多维方法，因为减轻性别偏见可能会引入种族偏见，并且 LLM 嵌入中的性别偏见在不同医学专业之间差异很大。我们证明了评估 MCQ 回答和解释过程至关重要，因为正确的回答可能基于有偏见的 *推理*。我们提供了一个用于评估 LLM 在现实世界临床案例中偏见的框架，深入了解了这些模型中偏见的复杂性，并提出了偏见缓解策略。