摘要
arXiv:2503.23128v1 公告类型:交叉
摘要:音乐相似性检索对于管理及探索流媒体平台中大量集合的相关内容至关重要。本文提出了一种新颖的跨模态对比学习框架,该框架利用开放的文本描述性质来引导音乐相似性建模,克服了传统单模态方法在捕捉复杂音乐关系方面的局限性。为了克服高质量文本-音乐配对数据稀缺的问题,本文引入了一种结合在线抓取和基于LLM的提示的双重数据获取方法,其中精心设计的提示利用了LLM的全面音乐知识以生成丰富语境的描述。通过对华为音乐流媒体平台进行广泛实验,客观指标、主观评估以及实际A/B测试结果显示,提出的框架在现有基准上实现了显著的性能改进。