LLM2D

摘要

arXiv:2503.24270v2 Announce Type: replace-cross 摘要：物体被敲击时会发出不同的声音，人类可以根据物体的外观和材料特性直观地推断它可能出现的声音。受这一直觉的启发，我们提出了Visual Acoustic Fields框架，该框架通过3D Gaussian Splatting（3DGS）在三维空间内将敲击声与视觉信号联系起来。我们的方法包含两个关键模块：声音生成和声音定位。声音生成模块利用条件扩散模型，该模型通过特征增强的3DGS渲染的多尺度特征来生成逼真的敲击声。同时，声音定位模块能够查询由特征增强的3DGS表示的三维场景，从而根据声源定位敲击位置。为了支持这一框架，我们引入了一个新的数据收集管道，用于收集场景级别的视觉-声音样本对，实现了采集图像、撞击位置及其对应声音之间的对齐。据我们所知，这是第一个在三维场景下将视觉信号和声学信号连接起来的数据集。我们数据集上的大量实验展示了Visual Acoustic Fields在生成合理的撞击声和准确定位撞击来源方面的有效性。我们的项目页面位于 https://yuelei0428.github.io/projects/Visual-Acoustic-Fields/。