LLM2D
基于自动语音识别 (ASR) 的 Wav2Vec2 用于自动语音障碍评估:见解与分析
Exploring ASR-Based Wav2Vec2 for Automated Speech Disorder Assessment: Insights and Analysis
作者: Tuan Nguyen, Corinne Fredouille, Alain Ghio, Mathieu Balaguer, Virginie Woisard
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2410.08250v1

摘要

随着 SSL 和 ASR 技术的兴起,基于 Wav2Vec2 的 ASR 模型已被微调用于自动语音障碍质量评估任务,取得了令人印象深刻的结果,并为头颈癌语音环境设定了新的基准。这表明 Wav2Vec2 的 ASR 维度与评估维度密切相关。尽管该系统有效,但它仍然是一个黑盒子,模型 ASR 维度与临床评估之间联系的解释并不明确。本文首次分析了该基准模型用于语音质量评估,重点关注清晰度和严重程度任务。我们进行了逐层分析以识别关键层,并根据预训练数据比较了不同的 SSL 和 ASR Wav2Vec2 模型。此外,还使用了事后 XAI 方法,包括典型相关分析 (CCA) 和可视化技术,以跟踪模型演变并可视化嵌入,从而增强可解释性。