LLM2D
视觉 acoustic 字段
Visual Acoustic Fields
作者: Yuelei Li, Hyunjin Kim, Fangneng Zhan, Ri-Zhao Qiu, Mazeyu Ji, Xiaojun Shan, Xueyan Zou, Paul Liang, Hanspeter Pfister, Xiaolong Wang
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.24270v1

摘要

arXiv:2503.24270v1 交叉公告类型 摘要:物体被击打时会产生不同的声音,人类可以根据物体的外观和材质特性直观地推测其声音。受到这种直觉的启发,我们提出了Visual Acoustic Fields框架,该框架使用3D高斯斑点绘制(3DGS)在3D空间内连接击打声音和视觉信号。我们的方法包含两个关键模块:声音生成和声音定位。声音生成模块利用条件扩散模型,该模型从特征增强的3DGS渲染出的多尺度特征中生成逼真的击打声音。同时,声音定位模块使得可以查询特征增强的3DGS表示的3D场景,根据声源定位击打位置。为了支持这一框架,我们引入了一种新的场景级视觉-声音样本对的采集管线,实现了捕获图像、冲击位置和相应声音之间的对齐。据我们所知,这是第一个在3D上下文中连接视觉和声学信号的数据库。在我们数据集上的广泛实验表明,Visual Acoustic Fields在生成合乎情理的冲击声音并准确定位冲击声源方面非常有效。我们的项目页面在 https://yuelei0428.github.io/projects/Visual-Acoustic-Fields/。