LLM2D

摘要

arXiv:2504.16047v1 类型：交叉领域摘要：利用自监督技术训练的大规模数据集建立的基础模型，在医学领域的人工智能（AI）应用方面展现出了一片充满希望的新天地。本研究评估了三种不同的视觉-语言基础模型（RAD-DINO、CheXagent和BiomedCLIP）在捕捉胸部X光成像细节特征以进行放射学任务方面的表现。这些模型在肺气胸和心脏增大（心脏扩大）的分类、分割和回归任务上进行了评估。自监督的RAD-DINO在分割任务中表现出色，而基于文本监督的CheXagent在分类性能上表现更佳。BiomedCLIP在各任务中的表现存在不一致性。一个结合全局和局部特征的定制分割模型显著提高了所有基础模型的表现，尤其是在肺气胸分割任务上效果更为明显。研究结果表明，预训练方法对特定下游任务的模型表现有显著影响。对于精细分割任务，无需文本监督训练的模型表现更好，而基于文本监督的模型在分类和可解释性方面有优势。这些见解为根据放射学的具体临床应用选择基础模型提供了指导。