LLM2D

摘要

arXiv:2411.07546v2 宣传类型: 替换-交叉摘要: 一种预先训练的视觉-语言模型，对比语言-图像预训练(CLIP)，通过文本提示成功完成了多种下游任务，例如找到图像或在图像中定位区域。尽管CLIP在多模态数据方面表现出色，但在医学应用等专门环境中仍然存在局限性。为此，出现了许多CLIP变体，例如BioMedCLIP和MedCLIP-SAMv2，但与正常区域相关的假阳性依然存在。因此，我们的目标是提出一个简单但重要的目标，即减少医学异常检测中的假阳性。我们介绍了一种利用正负文本提示的对比语言提示(CLAP)方法。这种简单的做法通过视觉注意力识别给定图像中正提示的潜在病灶区域。为了减少假阳性，我们通过使用负提示减弱对正常区域的注意力。通过对BMAD数据集进行广泛的实验，包括六个医学基准测试，证明了CLAP方法提高了异常检测性能。我们的未来计划是开发一种自动细粒度提示方法，以便更实用地使用。