LLM2D

摘要

arXiv:2505.07511v1 交互类型: 横跨摘要：交互式医学分割通过用户反馈 refinement 预测来减少注释努力。基于视觉变换器（ViT）的模型，如 Segment Anything Model (SAM)，通过用户点击和先验掩码作为提示，实现了顶级性能。然而，现有方法将交互视为独立事件，导致冗余校正并限制了改进幅度。我们通过引入 MAIS（记忆注意机制）来解决这一问题，MAIS 存储过去的用户输入和分割状态，从而实现时间上下文的整合。我们的方法增强了跨多种成像模态的基于 ViT 的分割，实现了更高效和准确的改进。