LLM2D

摘要

arXiv:2504.01201v1 通告类型: cross 摘要: 大型语言模型（LLMs）有潜力改变医学领域，但在现实世界的临床场景中，存在无关信息可能会阻碍性能。随着诸如环境记录这类辅助技术的发展，它们可以自动从实时患者会诊中生成草稿笔记，这有可能引入额外的噪声，因此评估LLM过滤相关信息的能力变得至关重要。为了研究这一问题，我们开发了MedDistractQA，这是一个基于USMLE风格问题嵌入模拟现实世界干扰项的基准测试。我们的研究表明，分散注意力的陈述（临床词义的多义词用于非临床环境或与无关健康状况的引用）可以将LLM的准确性降低多达17.9%。许多提高模型性能的常见解决方案，如检索增强生成（RAG）和医学微调，并未改变这一影响，并在某些情况下引入了自身的新混杂因素，进一步恶化了性能。我们的研究结果表明，LLMs在识别相关和无关的临床信息方面缺乏必要的逻辑机制，从而对现实世界的应用提出了挑战。MedDistractQA和我们的结果突显了需要强大的缓解策略来增强LLM抵御无关信息的能力，以提高其鲁棒性。