LLM2D
OpenSep:利用文本反转技术将大型语言模型应用于开放世界音频分离
OpenSep: Leveraging Large Language Models with Textual Inversion for Open World Audio Separation
作者: Tanvir Mahmud, Diana Marculescu
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.19270v1

摘要

在现实世界场景中,由于现有模型的局限性,例如过度分离、分离不足和对预定义训练源的依赖,混合物包含可变数量的声源的音频分离带来了重大挑战。我们提出了一种名为 OpenSep 的新框架,该框架利用大型语言模型 (LLM) 进行自动音频分离,消除了对人工干预的需求,并克服了声源限制。OpenSep 使用文本反转从音频混合物中生成字幕,并使用现成的音频字幕模型,有效地解析了存在的声源。然后,它使用少样本 LLM 提示来提取每个解析声源的详细音频属性,从而便于在未见混合物中进行分离。此外,我们引入了混合和分离训练框架的多级扩展,通过同时分离单一声源声音和混合物来增强模态对齐。大量实验表明,OpenSep 在分离具有挑战性的混合物中的新、未见和可变声源方面具有优越性,性能优于最先进的基线方法。代码已发布在 https://github.com/tanvir-utexas/OpenSep.git。