LLM2D
Dr-LLaVA:基于符号化临床基础的视觉指令调优
Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding
作者: Shenghuan Sun, Alexander Schubert, Gregory M. Goldgof, Zhiqing Sun, Thomas Hartvigsen, Atul J. Butte, Ahmed Alaa
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2405.19567v2

摘要

视觉语言模型 (VLM) 可以通过分析医学图像并进行自然语言交互来支持临床医生,从而帮助诊断和治疗任务。然而,VLM 经常表现出“幻觉”行为,生成与上下文多模态信息不符的文本输出。这种挑战在医疗领域尤为突出,因为我们不仅要求 VLM 输出在单次交互中准确,而且在多轮对话中与临床推理和诊断路径保持一致。为此,我们提出了一种新的对齐算法,该算法使用临床推理的符号表示将 VLM 融入医疗知识。这些表示用于 (i) 大规模生成 GPT-4 引导的视觉指令微调数据,模拟临床医生-VLM 对话,并展示临床推理,以及 (ii) 创建一个自动奖励函数,评估临床医生-VLM 交互中 VLM 生成的临床有效性。我们的算法消除了人类参与训练数据生成或奖励模型构建的需要,与标准的基于人类反馈的强化学习 (RLHF) 相比,降低了成本。我们将我们的对齐算法应用于开发 Dr-LLaVA,这是一种针对分析骨髓病理切片而微调的对话式 VLM,在多轮医疗对话中表现出强大的性能。