LLM2D

摘要

arXiv:2409.19689v2 宣告类型: 替换-交叉摘要：理解婴儿哭声的意义是年轻父母照顾新生儿时的一大挑战。背景噪音的存在和缺乏标注数据给开发能够检测哭声并分析其背后原因的系统带来了实际挑战。在这篇论文中，我们提出了一种新的数据驱动框架"InfantCryNet"，用于完成这些任务。为了解决数据稀缺的问题，我们利用预训练音频模型将先验知识融入到我们的模型中。我们提出了使用统计池化和多头注意力池化技术以更有效地提取特征。此外，我们应用了知识蒸馏和模型量化方法以提高模型效率并减少模型大小，从而更好地支持在移动设备上的工业部署。在真实数据集上的实验表明，提出的框架具有优越的表现，分类准确率比最先进的基线高出4.4%。模型压缩有效减少了模型大小7%，且在准确率下降8%的情况下最高可减少28%，提供了有关模型选择和系统设计的实用见解。