LLM2D
基于光谱图图像和卷积神经网络的实时音调/F0检测
Real-Time Pitch/F0 Detection Using Spectrogram Images and Convolutional Neural Networks
作者: Xufang Zhao, Omer Tsimhoni
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.06165v1

摘要

arXiv:2504.06165v1 Announce Type: 对比 摘要:本文提出了一种通过卷积神经网络和图像处理技术直接从频谱图图像中估计音高的新方法来检测基频。我们的新方法显示出非常良好的检测准确度;预测的音高轮廓中有92%与真正的音高轮廓具有较强或中等的相关性。此外,与最先进的CNN方法的实验比较表明,我们的方法在各种信噪比条件下可以将检测率提高约5%。