LLM2D

摘要

arXiv:2504.11008v1 声明类型: cross 摘要：尽管在像素级医学图像感知方面取得了显著进展，但现有方法要么局限于特定任务，要么严重依赖于准确的边界框或文本标签作为输入提示。然而，输入所需医学知识对普通公众来说是一个巨大的障碍，极大地降低了这些方法的通用性。与这些领域专用的辅助信息相比，普通用户更倾向于依赖需要逻辑推理的口头查询。在本文中，我们介绍了一个新颖的医学视觉任务：医学推理分割与检测（MedSD），其目标是对医学图像中的隐含查询进行理解，并生成相应的分割掩码和目标对象的边界框。为了完成这一任务，我们首先引入了一个多视角、逻辑驱动的医学推理分割与检测（MLMR-SD）数据集，该数据集包含了大量的医学实体目标及其相应的推理。此外，我们提出了一个名为MediSee的有效基线模型，专门用于医学推理分割与检测。实验结果表明，提出的模型可以有效地解决MedSD中的隐含口语查询，并优于传统的医学指示分割方法。