LLM2D

摘要

arXiv:2409.13676v1 公告类型: 交叉摘要: 通过对比学习训练的音频-文本模型提供了一种实用的方法，通过自然语言提示进行音频分类，例如“这是一个声音”后跟类别名称。在这项工作中，我们探索了用于零样本音频分类的替代提示模板，证明了存在更高性能的选项。首先，我们发现提示的格式显著影响性能，因此只需使用适当格式化的类别标签提示模型，就能与优化的提示模板甚至提示集成相媲美。此外，我们研究了通过音频中心描述来补充类别标签。通过利用大型语言模型，我们生成了优先考虑声音事件声学特征的文本描述，以在无需广泛提示工程的情况下区分类别。我们展示了使用类别描述提示在主要环境声音数据集上实现了零样本音频分类的最新结果。值得注意的是，这种方法无需额外训练，完全保持零样本特性。