摘要
本文介绍了一种多模态喉镜视频分析系统(MLVAS),该系统利用音频和视频数据自动提取原始喉部视频频闪镜检查中的关键片段和指标,以辅助临床评估。该系统集成了基于视频的声门检测和音频关键词识别方法,以分析视频和音频数据,识别患者的发声并细化视频重点,以确保最佳地检查声带运动。此外,MLVAS还具有先进的频闪视频提取模块,该模块通过分析色相、饱和度和亮度波动,专门识别喉部视频频闪镜检查中的频闪帧。除了关键片段提取之外,MLVAS还提供用于声带麻痹(VFP)检测的有效指标。它采用了一种新颖的两阶段声门分割过程,使用U-Net进行初始分割,然后进行基于扩散的细化以减少误报,从而为后续任务提供更好的分割掩码。MLVAS根据分割的声门掩码估计左右声带的振动动力学,通过测量与估计的声门中线的角度偏差来检测单侧VFP。通过比较左右动力学的方差,系统有效地区分左右VFP。我们进行了几项消融研究,以证明MLVAS中每个模块的有效性。在公共分割数据集上的实验结果表明了我们提出的分割模块的有效性。此外,在真实世界临床数据集上的VFP分类结果表明,MLVAS能够提供可靠和客观的指标以及可视化结果,以辅助临床诊断。