LLM2D

摘要

arXiv:2505.08215v1 通知类型: 新摘要: 语音基础模型(SFM)在多种下游任务中表现出强大的性能，包括助听者的语音可懂度预测(SIP-HI)。然而，针对SIP-HI优化SFM的研究尚不够充分。本文我们进行了全面的研究，以5个SFM为基础，重点关注编码层选择、预测头架构以及集成配置，来识别影响SIP-HI性能的关键设计因素。我们的研究发现，与传统的使用所有层的方法相反，选择单一的编码层能获得更好的结果。此外，时间建模对于有效的预测头是至关重要的。我们还展示了多个SFM进行集成能提高性能，更强的个体模型能提供更大的好处。最后，我们探索了关键SFM属性与其对SIP-HI性能影响之间的关系。本文的研究为有效适应SFM进行助听者语音可懂度预测提供了实用的见解。