摘要
arXiv:2502.15040v1 交叉公告类型
摘要:多模态大型语言模型(MLLMs)在视觉和文本任务中展现了令人印象深刻的性能。然而,幻觉仍然是一个主要挑战,尤其是在像医疗保健这样的领域,细节至关重要。在本文中,我们展示了如何通过支持视觉RAG(V-RAG)来增强MLLMs,这是一种结合检索到的图像中的文本和视觉数据的检索增强生成框架。我们在MIMIC-CXR胸部X射线报告生成和Multicare医学图像字幕生成数据集上展示了视觉RAG如何提高实体探针的准确性,该探针询问一个医学实体是否由图像支持。我们展示了这种改进不仅适用于频繁出现的实体,也适用于较少有积极训练数据的罕见实体。下游,我们使用实体探针和V-RAG来纠正幻觉并生成更临床准确的X射线报告,获得更高的RadGraph-F1分数。