摘要
arXiv:2505.04653v1 交叉公告类型
摘要:大规模语言模型(LLMs)在进行诊断对话方面展示了巨大的潜力,但评估主要局限于语言互动,无法满足远程医疗服务的实际要求。即时通讯平台允许临床医生和患者在医疗咨询过程中无缝上传和讨论多模态医疗信息,但LLMs在处理此类数据的同时保持高效诊断对话的其他属性的能力仍不清楚。在这里,我们通过一种新能力来增强Articulate Medical Intelligence Explorer(AMIE)的对话诊断和管理性能,即收集和解释多模态数据,并在咨询过程中精确地对其做出推理。依托Gemini 2.0 Flash,我们的系统实现了一个状态感知对话框架,在这个框架中,对话流程由反映患者状态和演变诊断的中间模型输出动态控制。通过不确定性引导后续问题,以制定结构化的多模态病史采集过程,模拟经验丰富的临床医生。我们在使用类似于智能手机皮肤照片、心电图和临床文件的PDF等多模态资源的105个评估场景中,将AMIE与初级保健医生(PCPs)进行了随机、盲法、基于OSCE的研究比对,患者演员参与了基于聊天的咨询过程。我们的评估标准评估了多模态能力和其他临床相关方面,如病史采集、诊断准确性、管理推理、沟通和同理心。专科评估结果显示,在9个模态和32个非模态方面中,AMIE优于PCPs(包括诊断准确性)。研究结果显示多模态对话诊断AI取得了明显的进展,但实际应用仍需进一步研究。