摘要
arXiv:2504.15929v1 交叉类型公告
摘要:诊断影像依赖于解析图像和放射学报告,但不断增加的数据量给医疗专家带来了巨大的压力,导致了错误的增加和工作流程的延误。医疗视觉语言模型(med-VLMs)作为高效处理多模态影像数据的强大框架,特别是胸部X光(CXR)评估中涌现了出来,尽管其性能取决于图像和文本表示的精确对齐。现有的对齐方法,主要基于对比学习,优先考虑不同疾病类别的分离,而忽视了细粒度病理属性如位置、大小或严重程度的区分,从而导致了次优的表示方法。在这里,我们提出了MedTrim(元实体驱动的 triplet 提取),这是一种新颖的方法,通过多模态 triplet 学习协同地指导疾病类别以及形容词和方向性病理描述,增强图像文本对齐。与常规的分离广泛疾病类别的对齐方法不同,MedTrim 利用结构化的元实体信息来保留重要的但细微的类别内变异。为此,我们首先引入了一个基于本体的实体识别模块,从 CXR 报告中提取与病理属性相关的元实体,因为公共数据集中病理属性的标注很少。对于 triplet 提取中的细致样本选择,我们引入了一个新颖的评分函数,该函数捕获了基于疾病类别和形容词/方向性描述的样本间相似性的综合度量。最后,我们引入了一个多模态 triplet 对齐目标,明确进行具有详细病理特征的样本之间的跨模态和模内对齐。我们的演示表明,与最先进的对齐方法相比,MedTrim 在下游检索和分类任务中提高了性能。