LLM2D

摘要

arXiv:2504.18283v1 交叉类型: cross 摘要: 近期的视听生成模型在从音频生成图像方面取得了显著进展。然而，现有的方法主要集中在从单一类别的音频生成图像上，而无法生成混合音频中的图像。为了解决这个问题，我们提出了一种视听生成与分离模型（AV-GAS），用于从声景（包含多种类别的混合音频）中生成图像。我们的贡献包括三个方面：首先，我们提出了一个视听生成任务的新挑战，即给定多类别音频输入生成图像，并提出了一种使用视听分离器解决该任务的方法。其次，我们引入了一个新的视听分离任务，该任务涉及为混合音频输入中存在的每个类别生成单独的图像。最后，我们为视听生成任务提出了新的评估指标：类表示得分（CRS）和修改后的R@K。我们的模型在VGGSound数据集上进行了训练和评估。结果显示，我们的方法优于现 state-of-the-art，生成混合音频图像时 CRS 提高了 7%，R@2* 提高了 4%。