摘要
arXiv:2504.18283v1 交叉类型: cross
摘要: 近期的视听生成模型在从音频生成图像方面取得了显著进展。然而,现有的方法主要集中在从单一类别的音频生成图像上,而无法生成混合音频中的图像。为了解决这个问题,我们提出了一种视听生成与分离模型(AV-GAS),用于从声景(包含多种类别的混合音频)中生成图像。我们的贡献包括三个方面:首先,我们提出了一个视听生成任务的新挑战,即给定多类别音频输入生成图像,并提出了一种使用视听分离器解决该任务的方法。其次,我们引入了一个新的视听分离任务,该任务涉及为混合音频输入中存在的每个类别生成单独的图像。最后,我们为视听生成任务提出了新的评估指标:类表示得分(CRS)和修改后的R@K。我们的模型在VGGSound数据集上进行了训练和评估。结果显示,我们的方法优于现 state-of-the-art,生成混合音频图像时 CRS 提高了 7%,R@2* 提高了 4%。