摘要
近年来,音频语言模型(ALMs)在零样本音频识别任务中取得了显著成功,这些任务将音频波形的特征与特定类别的文本提示特征相匹配,其灵感来自于视觉语言模型(VLMs)的进步。鉴于零样本性能对手工制作的文本提示选择的敏感性,许多提示学习技术已被开发用于 VLMs。我们探索了这些方法在 ALMs 中的有效性,并提出了一种新方法,即音频语言模型中的提示学习(PALM),该方法优化了文本编码器分支的特征空间。与在输入空间中工作的现有方法不同,我们的方法可以提高训练效率。我们在 11 个音频识别数据集上证明了我们方法的有效性,涵盖了各种语音处理任务,并在少样本学习环境中将结果与三个基线进行了比较。我们的方法在计算量要求较低的情况下,要么与其他方法相当,要么优于其他方法。代码可在 https://asif-hanif.github.io/palm/ 获取。