摘要
arXiv:2409.09866v2 通知类型: 替换-交叉
摘要:歌声包含比普通声音更加丰富多样的信息,例如多样的音质和声学特征。然而,现有的公开音频-文本数据集仅捕获了有限的属性并且缺乏声学特征,导致其在下游任务(如风格说明)中的实用性有限。为弥补这一缺口,我们正式提出了歌声风格说明任务,并引入了S2Cap数据集,该数据集包含了多样化的音质、声学和人口统计学属性的全面描述。基于此数据集,我们开发了一种简单而有效的基础算法来解决歌声风格说明问题。该算法利用了两种新型的技术组件:CRESCENDO 用于减轻预训练的单模模型之间的对齐问题,以及分离监督来规制模型使其专注于歌声。尽管算法结构简单,但所提出的方法在与最先进的基线相比时表现更优。