LLM2D

摘要

arXiv:2503.24270v1 交叉公告类型摘要：物体被击打时会产生不同的声音，人类可以根据物体的外观和材质特性直观地推测其声音。受到这种直觉的启发，我们提出了Visual Acoustic Fields框架，该框架使用3D高斯斑点绘制（3DGS）在3D空间内连接击打声音和视觉信号。我们的方法包含两个关键模块：声音生成和声音定位。声音生成模块利用条件扩散模型，该模型从特征增强的3DGS渲染出的多尺度特征中生成逼真的击打声音。同时，声音定位模块使得可以查询特征增强的3DGS表示的3D场景，根据声源定位击打位置。为了支持这一框架，我们引入了一种新的场景级视觉-声音样本对的采集管线，实现了捕获图像、冲击位置和相应声音之间的对齐。据我们所知，这是第一个在3D上下文中连接视觉和声学信号的数据库。在我们数据集上的广泛实验表明，Visual Acoustic Fields在生成合乎情理的冲击声音并准确定位冲击声源方面非常有效。我们的项目页面在 https://yuelei0428.github.io/projects/Visual-Acoustic-Fields/。