LLM2D

摘要

arXiv:2502.12623v1 交叉公告类型摘要：音乐大规模语言模型（LLMs）的最近进展显著提高了音乐理解任务的效果，这些任务涉及模型分析和解释各种音乐元素的能力。这些改进主要集中在整合音乐和文本输入。然而，将诸如图像、视频以及文本音乐特征等其他模态纳入以增强音乐理解的潜力尚未得到探索。为解决这一问题，我们提出了DeepResonance，这是一种通过多向指令调整多模态音乐理解LLM，并使用多向对齐的音乐、文本、图像和视频数据进行微调的方法。为此，我们构建了三个名为Music4way-MI2T、Music4way-MV2T和Music4way-Any2T的多向训练和评估数据集，旨在使DeepResonance能够整合视觉和文本音乐特征内容。我们还引入了多采样的ImageBind嵌入和预对齐的Transformer，以增强输入文本LLM之前的各种模态融合，从而为多向指令调整定制DeepResonance。我们的模型在六个音乐理解任务中均取得了最先进的性能，突显了辅助模态的好处以及DeepResonance的结构优势。我们计划开源这些模型和新构建的数据集。