LLM2D
使用检索增强预训练的神经声学场数据增强
Data Augmentation Using Neural Acoustic Fields With Retrieval-Augmented Pre-training
作者: Christopher Ick, Gordon Wichern, Yoshiki Masuyama, Fran\c{c}ois G. Germain, Jonathan Le Roux
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14409v1

摘要

arXiv:2504.14409v1 Announce Type: 交叉 摘要:本报告详细介绍了MERL提交给2025年ICASSP生成数据增强研讨会的房间冲激响应(RIR)估计系统,该研讨会针对增强RIR数据(任务1)和改进说话人距离估计(任务2)进行了分组。我们首先在包含提供RIR对和几何形状的外部大型数据集上预训练一个基于房间几何形状的神经声场模型。然后,通过使用注册数据,将神经声场模型适应到每个目标房间中,我们根据可利用性,利用提供的房间几何形状或从外部数据集中检索的几何形状实现这一点。最后,我们预测了由任务1指定的每对来源和接收器位置的RIR,并使用这些RIR来训练任务2中的说话人距离估计模型。