摘要
arXiv:2501.00398v2 宣布类型: 替换交叉
摘要:音频-语言模型(ALMs)在零样本音频分类任务中表现出色,该任务中,模型通过利用描述性的自然语言提示在测试时对未见过的音频片段进行分类。我们引入了TSPE(任务特定提示集),这是一种简单且无需训练的硬提示方法,通过为多种音频分类任务量身定制提示来提升ALMs的零样本性能。不同于使用通用模板提示,如“汽车的声音”,我们生成了信息丰富的提示,如“汽车从隧道传来的声音”。具体而言,我们利用标签信息识别合适的声学属性,如“响亮”和“微弱”,以及适当的声音来源,如“隧道”和“街道”,并将这些信息整合到用于音频分类的音频-语言模型(ALMs)所使用的提示中。此外,为了增强音频-文本对齐,我们在TSPE生成的任务特定提示之间进行提示集。当在12个不同的音频分类数据集上进行评估时,TSPE通过在基础的零样本评估中表现出绝对改进1.23-16.36%来提高ALMs的性能。