LLM2D

摘要

arXiv:2504.11008v2 任务类型: replace-cross 摘要: 尽管在像素级医疗图像感知方面取得了显著进展，现有的方法要么局限于特定任务，要么高度依赖准确的边界框或文本标签作为输入提示。然而，作为输入所需的高度专业化的医疗知识对于普通公众来说是一个巨大的障碍，极大地限制了这些方法的通用性。与这些专业化的辅助信息相比，普通用户更倾向于依赖需要逻辑推理的口头查询。在本文中，我们引入了一个新的医疗视觉任务：医学推理分割与检测（MedSD），旨在理解关于医学图像的隐含查询，并生成相应的分割掩码和目标对象的边界框。为了完成这一任务，我们首先引入了一个多视角、逻辑驱动的医学推理分割与检测（MLMR-SD）数据集，该数据集包括了大量的医学实体目标及其相应的推理。此外，我们提出了一种名为MediSee的有效基线模型，专门用于医学推理分割与检测。实验结果表明，所提出的方法能够有效处理MedSD中的隐含口语查询，并在传统医学引用分割方法上表现出色。