LLM2D
医学大型语言模型容易分心
Medical large language models are easily distracted
作者: Krithik Vishwanath, Anton Alyakin, Daniel Alexander Alber, Jin Vivian Lee, Douglas Kondziolka, Eric Karl Oermann
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2504.01201v1

摘要

arXiv:2504.01201v1 通告类型: cross 摘要: 大型语言模型(LLMs)有潜力改变医学领域,但在现实世界的临床场景中,存在无关信息可能会阻碍性能。随着诸如环境记录这类辅助技术的发展,它们可以自动从实时患者会诊中生成草稿笔记,这有可能引入额外的噪声,因此评估LLM过滤相关信息的能力变得至关重要。为了研究这一问题,我们开发了MedDistractQA,这是一个基于USMLE风格问题嵌入模拟现实世界干扰项的基准测试。我们的研究表明,分散注意力的陈述(临床词义的多义词用于非临床环境或与无关健康状况的引用)可以将LLM的准确性降低多达17.9%。许多提高模型性能的常见解决方案,如检索增强生成(RAG)和医学微调,并未改变这一影响,并在某些情况下引入了自身的新混杂因素,进一步恶化了性能。我们的研究结果表明,LLMs在识别相关和无关的临床信息方面缺乏必要的逻辑机制,从而对现实世界的应用提出了挑战。MedDistractQA和我们的结果突显了需要强大的缓解策略来增强LLM抵御无关信息的能力,以提高其鲁棒性。