LLM2D

摘要

arXiv:2502.10822v1 Announce Type: cross 摘要：助听器的普及率正在增加。然而，由于传统方法中集成多个模块化组件的复杂性，在助听器中优化放大过程仍然具有挑战性。为了解决这一挑战，我们提出了一种名为NeuroAMP的新颖的端到端个性化助听器放大深度神经网络。NeuroAMP利用了频谱特征和听众的听力图作为输入，并研究了四种架构：卷积神经网络（CNN）、长短期记忆（LSTM）、卷积循环神经网络（CRNN）和变压器。我们还介绍了去噪NeuroAMP的扩展，该扩展结合了降噪和放大功能，以在实际场景中提高表现。为了增强泛化能力，我们在包含不同语音（TIMIT和TMHINT）和音乐（Cadenza Challenge MUSIC）的数据集上进行训练时，采用了一种全面的数据增强策略。使用助听器言语感知指数（HASPI）、助听器言语质量指数（HASQI）和助听器音频质量指数（HAAQI）进行评估，结果显示NeuroAMP内的变压器架构在TIMIT数据集上取得了最佳性能，HASQI得分为0.9927，HASPI得分为0.9905；在Cadenza Challenge MUSIC数据集上HAAQI得分为0.9738。值得注意的是，我们的数据增强策略在未见数据集（例如VCTK、MUSDB18-HQ）上保持了高性能。此外，Denoising NeuroAMP在VoiceBank+DEMAND数据集上优于传统的NAL-R+WDRC方法和两阶段基线，分别在HASPI（0.90）和HASQI（0.59）得分上提高了10%。这些结果显示NeuroAMP和Denoising NeuroAMP在个性化助听器放大方面具有显著改进的潜力。