摘要
arXiv:2504.02917v1 类别:交叉学科
摘要:背景:大型语言模型(LLMs)正迅速融入医疗保健领域,有望增强各种临床任务。然而,人们对它们潜在的偏见表示关注,这可能损害患者护理并加剧健康不平等。本系统综述调查了LLMs在临床任务中偏见的普遍性、来源、表现形式和临床意义。方法:我们系统搜索PubMed、OVID和EMBASE数据库,从数据库 inception 到2025年,筛选评估LLMs在临床任务中偏见的研究。我们提取了关于LLM类型、偏见来源、偏表现象、受影响属性、临床任务、评价方法和结果的数据。使用修改后的ROBINS-I工具评估偏见风险。结果:共有38项研究符合纳入标准,表明各种LLM和临床应用中普遍存在偏见。数据相关的偏见(来自有偏见的训练数据)和模型相关的偏见(来自模型训练)是显著贡献者。偏见的表现形式包括:分配性损害(例如,不均匀的治疗建议);代表性损害(例如,刻板印象关联,有偏图像生成);以及性能差异(例如,输出质量的可变性)。这些偏见影响了多种属性,最频繁的是种族/ ethnicity 和性别,但也包括年龄、残疾和语言。结论:临床LLMs中的偏见是一个普遍且系统性的问题,可能导致误诊和不适当的治疗,特别是在边缘化患者群体中。对模型进行严格评估至关重要。此外,开发并实施有效的缓解策略,并在实际临床环境中持续监测,对于确保LLMs在医疗保健中的安全、公平和可信部署至关重要。