摘要
arXiv:2503.20258v1 宣告类型: cross
摘要:超声波视频是临床成像数据的重要形式,基于深度学习的自动化分析可以提高诊断准确性和临床效率。然而,标注数据的稀缺性和视频分析固有的挑战阻碍了相关方法的发展。在这项工作中,我们引入了E-ViM$^3$,这是一种数据高效、保留视频数据3D结构的Vision Mamba网络,通过增强长期依赖性和归纳偏置,更好地建模时空相关性。通过我们设计的封装全局令牌(EGT),该模型比竞争方法更有效地捕捉和聚合全局特征。为了进一步提高数据效率,我们采用了掩蔽视频建模进行自我监督的预训练,并提出了Spatial-Temporal Chained (STC) 遮蔽策略,该策略能够适应各种视频场景。实验结果表明,E-ViM$^3$ 在四个不同大小数据集(EchoNet-Dynamic、CAMUS、MICCAI-BUV 和 WHBUS)上的两个高层次语义分析任务中表现出了最先进的性能。此外,我们的模型在有限标签的情况下实现了竞争力的表现,突显了其在实际临床应用中的潜在影响。