LLM2D
Home
Arxiv
返回列表
基于大型语言模型字幕增强改进DCASE 2024挑战赛任务9中语言查询音频源分离的性能
Performance Improvement of Language-Queried Audio Source Separation Based on Caption Augmentation From Large Language Models for DCASE Challenge 2024 Task 9
作者:
Do Hyun Lee, Yoonah Song, Hong Kook Kim
发布日期:
11/28/2024
arXiv ID:
oai:arXiv.org:2406.11248v2
摘要
我们提出了一种基于提示工程的文本增强方法,应用于语言查询音频源分离 (LASS) 任务。为了提高 LASS 的性能,该方法利用大型语言模型 (LLM) 为训练数据集的每个句子生成多个标题。为此,我们首先进行实验,以较少的标题数量确定最有效的提示增强方法。使用这些增强标题训练的 LASS 模型在 DCASE 2024 任务 9 验证集上的性能优于未经增强训练的模型。这项研究突出了基于 LLM 的标题增强在推进语言查询音频源分离方面的有效性。
查看原文
下载 PDF