LLM2D

摘要

视觉语言模型 (VLM) 可以通过分析医学图像并进行自然语言交互来支持临床医生，从而帮助诊断和治疗任务。然而，VLM 经常表现出“幻觉”行为，生成与上下文多模态信息不符的文本输出。这种挑战在医疗领域尤为突出，因为我们不仅要求 VLM 输出在单次交互中准确，而且在多轮对话中与临床推理和诊断路径保持一致。为此，我们提出了一种新的对齐算法，该算法使用临床推理的符号表示将 VLM 融入医疗知识。这些表示用于 (i) 大规模生成 GPT-4 引导的视觉指令微调数据，模拟临床医生-VLM 对话，并展示临床推理，以及 (ii) 创建一个自动奖励函数，评估临床医生-VLM 交互中 VLM 生成的临床有效性。我们的算法消除了人类参与训练数据生成或奖励模型构建的需要，与标准的基于人类反馈的强化学习 (RLHF) 相比，降低了成本。我们将我们的对齐算法应用于开发 Dr-LLaVA，这是一种针对分析骨髓病理切片而微调的对话式 VLM，在多轮医疗对话中表现出强大的性能。