LLM2D

摘要

arXiv:2409.03597v3 公告类型: replace-cross 摘要：本文介绍了多模态喉镜视频分析系统（MLVAS），这是一个利用音视频数据自动从原始喉镜频闪视频中提取关键视频片段和指标的新系统，以辅助临床评估。该系统将基于视频的声门检测方法与音频关键词识别方法结合，用于分析音视频数据，识别患者的发音并优化视频亮点，以确保最佳的声带运动检查。除了从原始喉镜视频中提取关键视频片段外，MLVAS还能够生成有效的音频和视觉特征以检测声带麻痹（VFP）。使用预训练的音频编码器将患者的语音编码以获取音频特征。视觉特征通过测量左、右声带与分割后的声门掩码估计声门中线的角度偏差来生成。为了获得更好的掩码，我们引入了一种基于扩散的细化方法，该方法在传统的U-Net分割基础上减少误报。我们进行了几项消融研究，以证明所提出的MLVAS中每个模块和模态的有效性。在公共分割数据集上的实验结果表明了我们提出的分割模块的有效性。此外，使用真实临床数据集中的单侧VFP分类结果证明了MLVAS能够提供可靠的、客观的指标以及辅助临床诊断的可视化功能。