摘要
在现实世界场景中,由于现有模型的局限性,例如过度分离、分离不足和对预定义训练源的依赖,混合物包含可变数量的声源的音频分离带来了重大挑战。我们提出了一种名为 OpenSep 的新框架,该框架利用大型语言模型 (LLM) 进行自动音频分离,消除了对人工干预的需求,并克服了声源限制。OpenSep 使用文本反转从音频混合物中生成字幕,并使用现成的音频字幕模型,有效地解析了存在的声源。然后,它使用少样本 LLM 提示来提取每个解析声源的详细音频属性,从而便于在未见混合物中进行分离。此外,我们引入了混合和分离训练框架的多级扩展,通过同时分离单一声源声音和混合物来增强模态对齐。大量实验表明,OpenSep 在分离具有挑战性的混合物中的新、未见和可变声源方面具有优越性,性能优于最先进的基线方法。代码已发布在 https://github.com/tanvir-utexas/OpenSep.git。