摘要
arXiv:2505.04621v1 类别: cross
摘要: 我们介绍了Audio-SDS,这是一种将Score Distillation Sampling (SDS)推广到文本条件音频扩散模型的方法。尽管SDS最初设计用于使用图像扩散的文本到3D生成,但其核心思想——将强大的生成先验提炼为独立的参数表示——可以扩展到音频领域。利用单一预训练模型,Audio-SDS能够完成一系列任务,而无需专门的数据集。特别是,我们展示了Audio-SDS如何指导物理启发的声音冲击模拟、校准FM合成参数以及执行指定提示的声源分离。我们的研究结果表明,基于提炼的方法在不同模态中的通用性,并为未来使用生成先验在音频任务中进行工作奠定了坚实的基础。