摘要
arXiv:2505.05189v1 类别: cross
摘要: 提示学习是将预训练的视觉-语言模型(VLMs)适应生物医学图像分类任务的最有效范式之一,在少量样本场景中。然而,当前大多数提示学习方法只使用文本提示,忽略了生物医学图像中的特定结构(如复杂的解剖结构和细微的病理特征)。在本工作中,我们提出了一种知识增强的双模态提示调优技术 Biomed-DPT。在设计文本提示时,Biomed-DPT 构建了包括模板驱动的临床提示和大语言模型(LLM)驱动的领域适应提示的双提示,然后通过知识蒸馏技术从领域适应提示中提取临床知识。在设计视觉提示时,Biomed-DPT 引入了零向量作为软提示,利用注意力重加权,从而避免了对非诊断区域的关注和非关键病理特征的识别。Biomed-DPT 在涵盖 9 种模态和 10 种器官的 11 个生物医学图像数据集上实现了平均分类准确率 66.14%,在基类上的性能达到了 78.06%,在新类上的性能为 75.97%,分别超过了 Context Optimization (CoOp) 方法 6.20%、3.78% 和 8.04%。我们的代码可在 \underline{https://github.com/Kanyooo/Biomed-DPT} 获取。