LLM2D

摘要

arXiv:2504.10746v1 交叉类型: cross 摘要: 在混合现实应用中，真实的空间声学体验对于实现真正的沉浸感与视觉体验一样重要。尽管近年来在声学场景中的房间脉冲响应（RIR）估计的神经方法取得了进步，但大多数现有方法仅限于它们所训练的单一环境，无法将能力推广到具有不同几何形状和表面材料的新房间。我们旨在开发一个统一模型，能够在进行最少额外测量的情况下重构任何环境的三维声学体验。为此，我们提出了xRIR，一个跨房间RIR预测框架。我们可泛化的核心方法在于将一个几何特征提取器与一个RIR编码器相结合，几何特征提取器从全景深度图像中捕获空间上下文，而RIR编码器仅从几个参考RIR样本中提取详细的声学特征。为了评估我们的方法，我们引入了ACOUSTICROOMS新数据集，该数据集包含来自260个房间的高保真模拟超过300,000个RIR。实验结果显示，我们的方法显著优于一系列基线。此外，我们在四个真实世界环境上评估了我们的模型，成功实现了从仿真到现实的转移，证明了我们方法的普适性和我们数据集的逼真性。