LLM2D

摘要

我们提出了一种基于提示工程的文本增强方法，应用于语言查询音频源分离 (LASS) 任务。为了提高 LASS 的性能，该方法利用大型语言模型 (LLM) 为训练数据集的每个句子生成多个标题。为此，我们首先进行实验，以较少的标题数量确定最有效的提示增强方法。使用这些增强标题训练的 LASS 模型在 DCASE 2024 任务 9 验证集上的性能优于未经增强训练的模型。这项研究突出了基于 LLM 的标题增强在推进语言查询音频源分离方面的有效性。