LLM2D

摘要

arXiv:2505.09435v1 交叉通知类型：摘要：在内窥镜图像-文本结肠镜检查记录上进行预训练为提高内窥镜图像分析提供了巨大的潜力，但面临一些挑战，包括非信息性背景图像、复杂的医学术语和含糊的多病灶描述。我们介绍了Endo-CLIP，这是一种新颖的自监督框架，用于增强用于该领域的对比语言-图像预训练（CLIP）。Endo-CLIP的三阶段框架——清洗、调适和统一——通过以下方式解决了这些挑战：（1）去除背景帧，（2）利用大型语言模型提取临床属性以进行细粒度对比学习，（3）使用患者级别的交叉注意来解决多息肉的模糊性。大量的实验表明，Endo-CLIP在零样本和少样本息肉检测和分类方面显著优于最先进的预训练方法，为更准确和临床相关的内窥镜分析铺平了道路。