LLM2D

摘要

理解婴儿哭声的含义对于年轻父母照护新生儿来说是一个重大挑战。背景噪音的存在和缺乏标记数据在开发能够检测哭声并分析其潜在原因的系统方面带来了实际挑战。本文提出了一种新颖的数据驱动框架“InfantCryNet”来完成这些任务。为了解决数据稀缺问题，我们采用预训练音频模型将先验知识纳入我们的模型。我们建议使用统计池化和多头注意力池化技术来更有效地提取特征。此外，知识蒸馏和模型量化被应用于提高模型效率并减少模型大小，更好地支持移动设备中的工业部署。在真实数据集上的实验表明，所提出的框架性能优于现有最先进的基线，分类准确率提高了 4.4%。模型压缩有效地将模型大小减少了 7%，而不会影响性能，并且在准确率仅下降 8% 的情况下，模型大小最多减少了 28%，为模型选择和系统设计提供了实用见解。