LLM2D
视觉声场
Visual Acoustic Fields
作者: Yuelei Li, Hyunjin Kim, Fangneng Zhan, Ri-Zhao Qiu, Mazeyu Ji, Xiaojun Shan, Xueyan Zou, Paul Liang, Hanspeter Pfister, Xiaolong Wang
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2503.24270v2

摘要

arXiv:2503.24270v2 Announce Type: replace-cross 摘要:物体被敲击时会发出不同的声音,人类可以根据物体的外观和材料特性直观地推断它可能出现的声音。受这一直觉的启发,我们提出了Visual Acoustic Fields框架,该框架通过3D Gaussian Splatting(3DGS)在三维空间内将敲击声与视觉信号联系起来。我们的方法包含两个关键模块:声音生成和声音定位。声音生成模块利用条件扩散模型,该模型通过特征增强的3DGS渲染的多尺度特征来生成逼真的敲击声。同时,声音定位模块能够查询由特征增强的3DGS表示的三维场景,从而根据声源定位敲击位置。为了支持这一框架,我们引入了一个新的数据收集管道,用于收集场景级别的视觉-声音样本对,实现了采集图像、撞击位置及其对应声音之间的对齐。据我们所知,这是第一个在三维场景下将视觉信号和声学信号连接起来的数据集。我们数据集上的大量实验展示了Visual Acoustic Fields在生成合理的撞击声和准确定位撞击来源方面的有效性。我们的项目页面位于 https://yuelei0428.github.io/projects/Visual-Acoustic-Fields/。