LLM2D

摘要

arXiv:2409.19689v2 宣传类型: 交叉替换摘要：理解婴儿哭声的意义是年轻父母照顾新生儿时的一项重大挑战。背景噪音的存在和缺乏标注数据给开发能够检测哭声并分析其背后原因的系统带来了实际挑战。在这篇论文中，我们提出了一种新的数据驱动框架“InfantCryNet”，以解决这些问题。为了解决数据稀缺的问题，我们采用了预训练的音频模型来将先前的知识纳入到我们的模型中。我们提出使用统计聚合和多头注意力聚合技术以更有效地提取特征。此外，我们应用了知识蒸馏和模型量化以提高模型效率并减少模型大小，更好地支持在移动设备上的工业部署。在真实数据集上的实验表明，所提出的框架在分类准确性方面优于最先进的基线方法，提高了4.4%。模型压缩有效减少了模型大小7%，而不影响性能，并且最多可减少28%，同时仅将准确性降低8%，为模型选择和系统设计提供了实用的见解。