摘要
arXiv:2504.06088v1 类型: cross
摘要:在胎儿超声(US)视频中准确获取标准平面对胎儿生长评估、异常检测以及遵循临床指南至关重要。然而,手动选择标准帧耗时且易受不同超声医师间的差异影响。现有方法主要依赖基于图像的方法来捕捉标准帧,然后对不同解剖部位的输入帧进行分类。这忽视了视频获取的动态性质及其解释。为了解决这些挑战,我们引入了多级类意识令牌变换器(MCAT),这是一种基于视觉查询的视频剪辑本地化(VQ-VCL)方法,通过使超声医师能够快速获取US波扫,协助超声医师。通过提供他们希望分析的解剖区域的视觉查询,MCAT返回包含该解剖区域的标准帧的视频剪辑,从而促进潜在异常的全面筛查。我们在两个超声视频数据集和基于Ego4D的自然图像VQ-VCL数据集上评估了MCAT。我们的模型在超声数据集上的mIoU上分别优于最先进的方法10%和13%,在Ego4D数据集上的mIoU上优于5.35%的方法,同时使用了96% fewer tokens。MCAT的高效性和准确性在公共卫生领域具有重大潜在影响,特别是在低收入和中等收入国家(LMICs),它可能会通过简化标准平面获取过程、简化基于US的筛查和诊断来增强产前护理,使超声医师能够检查更多患者。