LLM2D

摘要

随着 SSL 和 ASR 技术的兴起，基于 Wav2Vec2 的 ASR 模型已被微调用于自动语音障碍质量评估任务，取得了令人印象深刻的结果，并为头颈癌语音环境设定了新的基准。这表明 Wav2Vec2 的 ASR 维度与评估维度密切相关。尽管该系统有效，但它仍然是一个黑盒子，模型 ASR 维度与临床评估之间联系的解释并不明确。本文首次分析了该基准模型用于语音质量评估，重点关注清晰度和严重程度任务。我们进行了逐层分析以识别关键层，并根据预训练数据比较了不同的 SSL 和 ASR Wav2Vec2 模型。此外，还使用了事后 XAI 方法，包括典型相关分析 (CCA) 和可视化技术，以跟踪模型演变并可视化嵌入，从而增强可解释性。