LLM2D

摘要

arXiv:2504.15929v1 交叉类型公告摘要：诊断影像依赖于解析图像和放射学报告，但不断增加的数据量给医疗专家带来了巨大的压力，导致了错误的增加和工作流程的延误。医疗视觉语言模型（med-VLMs）作为高效处理多模态影像数据的强大框架，特别是胸部X光（CXR）评估中涌现了出来，尽管其性能取决于图像和文本表示的精确对齐。现有的对齐方法，主要基于对比学习，优先考虑不同疾病类别的分离，而忽视了细粒度病理属性如位置、大小或严重程度的区分，从而导致了次优的表示方法。在这里，我们提出了MedTrim（元实体驱动的 triplet 提取），这是一种新颖的方法，通过多模态 triplet 学习协同地指导疾病类别以及形容词和方向性病理描述，增强图像文本对齐。与常规的分离广泛疾病类别的对齐方法不同，MedTrim 利用结构化的元实体信息来保留重要的但细微的类别内变异。为此，我们首先引入了一个基于本体的实体识别模块，从 CXR 报告中提取与病理属性相关的元实体，因为公共数据集中病理属性的标注很少。对于 triplet 提取中的细致样本选择，我们引入了一个新颖的评分函数，该函数捕获了基于疾病类别和形容词/方向性描述的样本间相似性的综合度量。最后，我们引入了一个多模态 triplet 对齐目标，明确进行具有详细病理特征的样本之间的跨模态和模内对齐。我们的演示表明，与最先进的对齐方法相比，MedTrim 在下游检索和分类任务中提高了性能。