摘要
arXiv:2504.10746v1 交叉类型: cross
摘要: 在混合现实应用中,真实的空间声学体验对于实现真正的沉浸感与视觉体验一样重要。尽管近年来在声学场景中的房间脉冲响应(RIR)估计的神经方法取得了进步,但大多数现有方法仅限于它们所训练的单一环境,无法将能力推广到具有不同几何形状和表面材料的新房间。我们旨在开发一个统一模型,能够在进行最少额外测量的情况下重构任何环境的三维声学体验。为此,我们提出了xRIR,一个跨房间RIR预测框架。我们可泛化的核心方法在于将一个几何特征提取器与一个RIR编码器相结合,几何特征提取器从全景深度图像中捕获空间上下文,而RIR编码器仅从几个参考RIR样本中提取详细的声学特征。为了评估我们的方法,我们引入了ACOUSTICROOMS新数据集,该数据集包含来自260个房间的高保真模拟超过300,000个RIR。实验结果显示,我们的方法显著优于一系列基线。此外,我们在四个真实世界环境上评估了我们的模型,成功实现了从仿真到现实的转移,证明了我们方法的普适性和我们数据集的逼真性。