LLM2D

摘要

对音频波形进行表示学习时，对时间特征进行建模至关重要。我们提出了对比式长文本语言-音频预训练（**CoLLAP**），以显著扩展输入音频（最长 5 分钟）和语言描述（超过 250 个词）的感知窗口，同时实现跨模态和时间动态的对比学习。利用最近的音乐-LLM 为完整歌曲生成长文本音乐字幕，并辅以音乐时间结构，我们从大规模 AudioSet 训练数据集收集了 51.3K 个音频-文本对，其中平均音频长度达到 288 秒。我们提出了一种新颖的对比学习架构，通过将每首歌曲分割成片段并提取其嵌入来融合语言表示和结构化音频表示。利用注意力机制，我们捕捉到多模态时间相关性，使模型能够自动权衡和增强最终融合分数，以实现更好的对比对齐。最后，我们开发了两种具有不同类型骨干语言模型的 CoLLAP 模型变体。通过对多个长文本音乐-文本检索数据集进行的综合实验，我们证明了与基线相比，检索精度始终得到提升。我们还展示了预训练的 CoLLAP 模型可以转移到各种音乐信息检索任务中，具有异构的长文本多模态上下文。