摘要
## 移动声源条件下语音分离和增强模型的系统评估通常需要包含多种场景的大量数据。然而,现实世界的数据集往往缺乏满足模型训练和评估需求的数据。虽然合成数据集提供了更大的数据量,但其声学模拟缺乏真实性。因此,现实世界和合成数据集都无法有效地满足实际需求。为了解决这些问题,我们引入了 SonicSim,这是一个旨在生成高度可定制的移动声源数据的合成工具包。SonicSim 基于具身 AI 模拟平台 Habitat-sim 开发,支持多级调整,包括场景级、麦克风级和源级,从而生成更多样化的合成数据。利用 SonicSim,我们构建了一个移动声源基准数据集 SonicSet,使用 Librispeech、Freesound Dataset 50k (FSD50K) 和 Free Music Archive (FMA),以及来自 Matterport3D 的 90 个场景来评估语音分离和增强模型。此外,为了验证合成数据和现实世界数据之间的差异,我们从 SonicSet 验证集中随机选择了 5 小时的无混响原始数据,并录制了一个现实世界语音分离数据集,然后将其与相应的合成数据集进行比较。同样,我们利用现实世界语音增强数据集 RealMAN 来验证其他合成数据集与 SonicSet 数据集在语音增强方面的声学差距。结果表明,SonicSim 生成的合成数据可以有效地泛化到现实世界场景。演示和代码已在 https://cslikai.cn/SonicSim/ 公开提供。