LLM2D

摘要

arXiv:2505.04621v1 类别: cross 摘要: 我们介绍了Audio-SDS，这是一种将Score Distillation Sampling (SDS)推广到文本条件音频扩散模型的方法。尽管SDS最初设计用于使用图像扩散的文本到3D生成，但其核心思想——将强大的生成先验提炼为独立的参数表示——可以扩展到音频领域。利用单一预训练模型，Audio-SDS能够完成一系列任务，而无需专门的数据集。特别是，我们展示了Audio-SDS如何指导物理启发的声音冲击模拟、校准FM合成参数以及执行指定提示的声源分离。我们的研究结果表明，基于提炼的方法在不同模态中的通用性，并为未来使用生成先验在音频任务中进行工作奠定了坚实的基础。