LLM2D

摘要

在现实世界场景中，由于现有模型的局限性，例如过度分离、分离不足和对预定义训练源的依赖，混合物包含可变数量的声源的音频分离带来了重大挑战。我们提出了一种名为 OpenSep 的新框架，该框架利用大型语言模型 (LLM) 进行自动音频分离，消除了对人工干预的需求，并克服了声源限制。OpenSep 使用文本反转从音频混合物中生成字幕，并使用现成的音频字幕模型，有效地解析了存在的声源。然后，它使用少样本 LLM 提示来提取每个解析声源的详细音频属性，从而便于在未见混合物中进行分离。此外，我们引入了混合和分离训练框架的多级扩展，通过同时分离单一声源声音和混合物来增强模态对齐。大量实验表明，OpenSep 在分离具有挑战性的混合物中的新、未见和可变声源方面具有优越性，性能优于最先进的基线方法。代码已发布在 https://github.com/tanvir-utexas/OpenSep.git。