LLM2D
大型语言模型在临床问题解决中由于僵化的推理能力所受到的限制
Limitations of Large Language Models in Clinical Problem-Solving Arising from Inflexible Reasoning
作者: Jonathan Kim, Anna Podlasek, Kie Shidara, Feng Liu, Ahmed Alaa, Danilo Bernardo
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04381v1

摘要

arXiv:2502.04381v1 Announce Type: cross 摘要:大规模语言模型(LLMs)已在医学问答(QA)基准测试中达到了人类级别的准确性。然而,它们在应对开放性临床情景方面的局限性最近已被证明,这引发了关于LLM在多种多样的实际医疗任务中推理的稳健性和普适性的担忧。为了探索LLM在临床问题解决中可能出现的失败模式,我们介绍了医学抽象与推理语料库(M-ARC)。M-ARC通过设计来利用Einstellung效应——由先前经验产生的思维固定现象,旨在针对LLM在诱导偏差方面偏向于从训练数据中进行僵化的模式匹配,而不是进行灵活的推理。我们发现,包括当前最先进的o1和Gemini模型在内的LLMs在M-ARC上的表现远不如医生,经常表现出缺乏常识性医学推理以及倾向于编造答案的倾向。此外,不确定性估计分析表明,尽管准确率有限,LLMs仍显现出对答案的过度自信。M-ARC揭示的LLM医学推理的失败模式强调了在临床环境中部署这些模型时必须谨慎。