LLM2D

摘要

近年来，音频语言模型（ALMs）在零样本音频识别任务中取得了显著成功，这些任务将音频波形的特征与特定类别的文本提示特征相匹配，其灵感来自于视觉语言模型（VLMs）的进步。鉴于零样本性能对手工制作的文本提示选择的敏感性，许多提示学习技术已被开发用于 VLMs。我们探索了这些方法在 ALMs 中的有效性，并提出了一种新方法，即音频语言模型中的提示学习（PALM），该方法优化了文本编码器分支的特征空间。与在输入空间中工作的现有方法不同，我们的方法可以提高训练效率。我们在 11 个音频识别数据集上证明了我们方法的有效性，涵盖了各种语音处理任务，并在少样本学习环境中将结果与三个基线进行了比较。我们的方法在计算量要求较低的情况下，要么与其他方法相当，要么优于其他方法。代码可在 https://asif-hanif.github.io/palm/ 获取。