LLM2D

摘要

arXiv:2505.05189v1 类别: cross 摘要: 提示学习是将预训练的视觉-语言模型（VLMs）适应生物医学图像分类任务的最有效范式之一，在少量样本场景中。然而，当前大多数提示学习方法只使用文本提示，忽略了生物医学图像中的特定结构（如复杂的解剖结构和细微的病理特征）。在本工作中，我们提出了一种知识增强的双模态提示调优技术 Biomed-DPT。在设计文本提示时，Biomed-DPT 构建了包括模板驱动的临床提示和大语言模型（LLM）驱动的领域适应提示的双提示，然后通过知识蒸馏技术从领域适应提示中提取临床知识。在设计视觉提示时，Biomed-DPT 引入了零向量作为软提示，利用注意力重加权，从而避免了对非诊断区域的关注和非关键病理特征的识别。Biomed-DPT 在涵盖 9 种模态和 10 种器官的 11 个生物医学图像数据集上实现了平均分类准确率 66.14%，在基类上的性能达到了 78.06%，在新类上的性能为 75.97%，分别超过了 Context Optimization (CoOp) 方法 6.20%、3.78% 和 8.04%。我们的代码可在 \underline{https://github.com/Kanyooo/Biomed-DPT} 获取。