摘要
arXiv:2504.06581v1 宣布类型: 新
摘要: 大型语言模型(LLMs)提供了一种有前景的预筛查工具,能够改进早期疾病检测并为贫困社区提供增强的医疗服务。各疾病早期诊断仍然是医疗卫生中的一个重要挑战,主要原因在于早期症状的非特异性、专家医疗人员的短缺以及需要长期临床评估,这些因素都可能导致治疗延迟并负面地影响患者结果。LLMs 在多种疾病的预测方面表现出令人印象深刻的准确性,这有望革新临床预筛查和各种医疗状况的决策过程。在本文中,我们研究了LLMs 在风湿性关节炎(RA)诊断方面的能力,使用了实际患者的病患数据。收集了患者的病患数据并伴随着医疗专家的诊断,LLMs 的表现与专家对RA疾病的诊断进行了比较评价。我们注意到一个有趣的疾病诊断模式,并发现意外的“预测和解释不一致”。我们使用不同的LLM代理进行了多次分析。表现最好的模型在大约95%的时间内准确预测了风湿性关节炎(RA)疾病。然而,当医疗专家评估模型生成的推理时,他们发现几乎68%的推理是错误的。这项研究强调了LLMs 高预测准确性与其错误推理之间的明显不一致,提出了在临床环境中依赖LLM解释的关键问题。**LLMs提供错误的推理以得出正确的RA疾病诊断答案。**