摘要
arXiv:2504.11008v1 声明类型: cross
摘要:尽管在像素级医学图像感知方面取得了显著进展,但现有方法要么局限于特定任务,要么严重依赖于准确的边界框或文本标签作为输入提示。然而,输入所需医学知识对普通公众来说是一个巨大的障碍,极大地降低了这些方法的通用性。与这些领域专用的辅助信息相比,普通用户更倾向于依赖需要逻辑推理的口头查询。在本文中,我们介绍了一个新颖的医学视觉任务:医学推理分割与检测(MedSD),其目标是对医学图像中的隐含查询进行理解,并生成相应的分割掩码和目标对象的边界框。为了完成这一任务,我们首先引入了一个多视角、逻辑驱动的医学推理分割与检测(MLMR-SD)数据集,该数据集包含了大量的医学实体目标及其相应的推理。此外,我们提出了一个名为MediSee的有效基线模型,专门用于医学推理分割与检测。实验结果表明,提出的模型可以有效地解决MedSD中的隐含口语查询,并优于传统的医学指示分割方法。