LLM2D
揭示将语音基础模型应用于听障人士语音可懂度预测的最佳实践
Unveiling the Best Practices for Applying Speech Foundation Models to Speech Intelligibility Prediction for Hearing-Impaired People
作者: Haoshuai Zhou, Boxuan Cao, Changgeng Mo, Linkai Li, Shan Xiang Wang
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.08215v1

摘要

arXiv:2505.08215v1 通知类型: 新 摘要: 语音基础模型(SFM)在多种下游任务中表现出强大的性能,包括助听者的语音可懂度预测(SIP-HI)。然而,针对SIP-HI优化SFM的研究尚不够充分。本文我们进行了全面的研究,以5个SFM为基础,重点关注编码层选择、预测头架构以及集成配置,来识别影响SIP-HI性能的关键设计因素。我们的研究发现,与传统的使用所有层的方法相反,选择单一的编码层能获得更好的结果。此外,时间建模对于有效的预测头是至关重要的。我们还展示了多个SFM进行集成能提高性能,更强的个体模型能提供更大的好处。最后,我们探索了关键SFM属性与其对SIP-HI性能影响之间的关系。本文的研究为有效适应SFM进行助听者语音可懂度预测提供了实用的见解。