LLM2D

摘要

arXiv:2504.18800v1 交叉公告类型摘要：心脏超声涉及使用超声波记录心脏的视频，使临床医生能够评估其状况。近年来，大规模的视觉语言模型（VLMs）因能够自动化心脏超声视频的解释而引起了关注。然而，迄今为止，用于医疗解释的大多数现有的VLMs主要依赖于单帧（即图像）输入。因此，这些基于图像的模型在通过心脏运动识别的情况诊断准确性方面较低。此外，心脏超声视频是从不同的视角录制的，这些视角依赖于超声波的发射方向，某些视角对于解释特定状况更为合适。整合多种视角可能进一步提高准确性。在此研究中，我们开发了一种视频语言模型，该模型以五种不同的视角和完整的视频序列作为输入，并在来自60,747个病例的配对心脏超声视频和临床报告上进行了训练。我们的实验表明，这种方法在解释准确性方面优于仅使用单视角视频或静态图像进行训练的模型。