摘要
arXiv:2505.07511v1 交互类型: 横跨
摘要:交互式医学分割通过用户反馈 refinement 预测来减少注释努力。基于视觉变换器(ViT)的模型,如 Segment Anything Model (SAM),通过用户点击和先验掩码作为提示,实现了顶级性能。然而,现有方法将交互视为独立事件,导致冗余校正并限制了改进幅度。我们通过引入 MAIS(记忆注意机制)来解决这一问题,MAIS 存储过去的用户输入和分割状态,从而实现时间上下文的整合。我们的方法增强了跨多种成像模态的基于 ViT 的分割,实现了更高效和准确的改进。