LLM2D
音频中的Score蒸馏采样:源分离、合成以及更远处
Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond
作者: Jessie Richter-Powell, Antonio Torralba, Jonathan Lorraine
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2505.04621v1

摘要

arXiv:2505.04621v1 类别: cross 摘要: 我们介绍了Audio-SDS,这是一种将Score Distillation Sampling (SDS)推广到文本条件音频扩散模型的方法。尽管SDS最初设计用于使用图像扩散的文本到3D生成,但其核心思想——将强大的生成先验提炼为独立的参数表示——可以扩展到音频领域。利用单一预训练模型,Audio-SDS能够完成一系列任务,而无需专门的数据集。特别是,我们展示了Audio-SDS如何指导物理启发的声音冲击模拟、校准FM合成参数以及执行指定提示的声源分离。我们的研究结果表明,基于提炼的方法在不同模态中的通用性,并为未来使用生成先验在音频任务中进行工作奠定了坚实的基础。