LLM2D

摘要

arXiv:2504.20625v1 宣传类型: cross 摘要: 房间冲激响应（RIRs）描述了声学环境，并在多项音频信号处理任务中至关重要。高质量的RIR估计驱动了诸如虚拟麦克风、声源定位、增强现实和数据增强等应用。然而，获得具有高空间分辨率的RIR测量值是一项资源密集型任务，使其在大空间或需要密集采样时难以实现。本研究解决了在房间内未测量位置估计RIR的挑战，利用了去噪扩散概率模型（DDPM）。我们的方法借鉴了RIR矩阵与图像修复之间的类比，将RIR数据转换为基于扩散重建的格式。使用基于图像法的模拟RIR数据，我们在不同曲率的麦克风阵列上展示了我们方法的有效性，从线性到半圆形。我们的方法成功地重构了缺失的RIR，即使在麦克风之间的大间隙中也能做到。在这种情况下，它在归一化均方误差和RIR实际值与插值值的余弦距离方面表现出色，显著优于基线样条三次插值。本研究突显了使用生成模型进行有效RIR插值的潜力，为从有限的现实世界测量中生成额外数据铺平了道路。