LLM2D

摘要

arXiv:2503.20258v1 宣告类型: cross 摘要：超声波视频是临床成像数据的重要形式，基于深度学习的自动化分析可以提高诊断准确性和临床效率。然而，标注数据的稀缺性和视频分析固有的挑战阻碍了相关方法的发展。在这项工作中，我们引入了E-ViM$^3$，这是一种数据高效、保留视频数据3D结构的Vision Mamba网络，通过增强长期依赖性和归纳偏置，更好地建模时空相关性。通过我们设计的封装全局令牌(EGT)，该模型比竞争方法更有效地捕捉和聚合全局特征。为了进一步提高数据效率，我们采用了掩蔽视频建模进行自我监督的预训练，并提出了Spatial-Temporal Chained (STC) 遮蔽策略，该策略能够适应各种视频场景。实验结果表明，E-ViM$^3$ 在四个不同大小数据集（EchoNet-Dynamic、CAMUS、MICCAI-BUV 和 WHBUS）上的两个高层次语义分析任务中表现出了最先进的性能。此外，我们的模型在有限标签的情况下实现了竞争力的表现，突显了其在实际临床应用中的潜在影响。