LLM2D

摘要

arXiv:2504.02917v1 类别:交叉学科摘要：背景：大型语言模型（LLMs）正迅速融入医疗保健领域，有望增强各种临床任务。然而，人们对它们潜在的偏见表示关注，这可能损害患者护理并加剧健康不平等。本系统综述调查了LLMs在临床任务中偏见的普遍性、来源、表现形式和临床意义。方法：我们系统搜索PubMed、OVID和EMBASE数据库，从数据库 inception 到2025年，筛选评估LLMs在临床任务中偏见的研究。我们提取了关于LLM类型、偏见来源、偏表现象、受影响属性、临床任务、评价方法和结果的数据。使用修改后的ROBINS-I工具评估偏见风险。结果：共有38项研究符合纳入标准，表明各种LLM和临床应用中普遍存在偏见。数据相关的偏见（来自有偏见的训练数据）和模型相关的偏见（来自模型训练）是显著贡献者。偏见的表现形式包括：分配性损害（例如，不均匀的治疗建议）；代表性损害（例如，刻板印象关联，有偏图像生成）；以及性能差异（例如，输出质量的可变性）。这些偏见影响了多种属性，最频繁的是种族/ ethnicity 和性别，但也包括年龄、残疾和语言。结论：临床LLMs中的偏见是一个普遍且系统性的问题，可能导致误诊和不适当的治疗，特别是在边缘化患者群体中。对模型进行严格评估至关重要。此外，开发并实施有效的缓解策略，并在实际临床环境中持续监测，对于确保LLMs在医疗保健中的安全、公平和可信部署至关重要。