LLM2D
基于知识引导的关键区域检索的开放式病理视觉问答
Path-RAG: Knowledge-Guided Key Region Retrieval for Open-ended Pathology Visual Question Answering
作者: Awais Naeem, Tianhao Li, Huang-Ru Liao, Jiawei Xu, Aby M. Mathew, Zehao Zhu, Zhen Tan, Ajay Kumar Jaiswal, Raffi A. Salibian, Ziniu Hu, Tianlong Chen, Ying Ding
发布日期: 11/27/2024
arXiv ID: oai:arXiv.org:2411.17073v1

摘要

基于病理图像的准确诊断和预后预测对于癌症治疗方案的选择和制定至关重要。尽管近年来分析复杂病理图像的深度学习方法发展迅速,但这些方法往往忽略了领域专家对组织结构和细胞组成的理解。本研究针对一项具有挑战性的开放式病理视觉问答 (PathVQA-Open) 任务,提出了一种名为 Path-RAG 的新型框架,该框架利用组织图谱技术从病理图像中检索相关的领域知识,并显著提高了 PathVQA-Open 任务的性能。鉴于病理图像分析的复杂性,Path-RAG 采用以人为中心的 AI 方法,利用组织图谱技术检索领域知识,从而从病理图像中选择相关的图像块。我们的实验表明,领域指导可以显著提高 LLaVA-Med 的准确率,从 38% 提高到 47%,在 PathVQA-Open 数据集中,苏木精-伊红 (H&E) 染色病理图像的准确率提升显著,达 28%。对于长篇问答对,我们的模型在 ARCH-Open PubMed 和 ARCH-Open Books 数据集上针对 H&E 图像的性能分别提高了 32.5% 和 30.6%。我们的代码和数据集已公开发布 (https://github.com/embedded-robotics/path-rag)。