摘要
arXiv:2504.05576v1 声音类型:交叉
摘要:我们介绍了一种名为SoundVista的方法,用于从新视角生成任意场景的环境声音。给定来自稀疏分布麦克风的场景预先录制的录音,SoundVista可以从看不见的目标视角合成该场景的声音。该方法利用有限数量的已知录制,学习分布式麦克风获得的信号与目标视角信号之间的潜在声学传输函数。与现有工作不同,我们的方法不需要对声源的具体约束或先验知识。此外,我们的方法可以高效地适应多种房间布局、参考麦克风配置和未见环境。为了实现这一点,我们引入了一个视音频结合模块,该模块从全景RGB和深度数据中学习与局部声学属性链接的视觉嵌入。我们首先利用这些嵌入来优化任何给定场景中的参考麦克风放置位置。在合成过程中,我们利用从参考位置提取的多个嵌入,根据目标视角获取它们贡献的自适应权重。我们在公开数据和真实环境中对该任务进行了基准测试。我们展示了与现有方法相比的巨大改进。