LLM2D

摘要

arXiv:2504.06088v1 类型: cross 摘要：在胎儿超声（US）视频中准确获取标准平面对胎儿生长评估、异常检测以及遵循临床指南至关重要。然而，手动选择标准帧耗时且易受不同超声医师间的差异影响。现有方法主要依赖基于图像的方法来捕捉标准帧，然后对不同解剖部位的输入帧进行分类。这忽视了视频获取的动态性质及其解释。为了解决这些挑战，我们引入了多级类意识令牌变换器（MCAT），这是一种基于视觉查询的视频剪辑本地化（VQ-VCL）方法，通过使超声医师能够快速获取US波扫，协助超声医师。通过提供他们希望分析的解剖区域的视觉查询，MCAT返回包含该解剖区域的标准帧的视频剪辑，从而促进潜在异常的全面筛查。我们在两个超声视频数据集和基于Ego4D的自然图像VQ-VCL数据集上评估了MCAT。我们的模型在超声数据集上的mIoU上分别优于最先进的方法10%和13%，在Ego4D数据集上的mIoU上优于5.35%的方法，同时使用了96% fewer tokens。MCAT的高效性和准确性在公共卫生领域具有重大潜在影响，特别是在低收入和中等收入国家（LMICs），它可能会通过简化标准平面获取过程、简化基于US的筛查和诊断来增强产前护理，使超声医师能够检查更多患者。