LLM2D

摘要

arXiv:2502.04381v1 Announce Type: cross 摘要：大规模语言模型（LLMs）已在医学问答（QA）基准测试中达到了人类级别的准确性。然而，它们在应对开放性临床情景方面的局限性最近已被证明，这引发了关于LLM在多种多样的实际医疗任务中推理的稳健性和普适性的担忧。为了探索LLM在临床问题解决中可能出现的失败模式，我们介绍了医学抽象与推理语料库（M-ARC）。M-ARC通过设计来利用Einstellung效应——由先前经验产生的思维固定现象，旨在针对LLM在诱导偏差方面偏向于从训练数据中进行僵化的模式匹配，而不是进行灵活的推理。我们发现，包括当前最先进的o1和Gemini模型在内的LLMs在M-ARC上的表现远不如医生，经常表现出缺乏常识性医学推理以及倾向于编造答案的倾向。此外，不确定性估计分析表明，尽管准确率有限，LLMs仍显现出对答案的过度自信。M-ARC揭示的LLM医学推理的失败模式强调了在临床环境中部署这些模型时必须谨慎。