LLM2D

摘要

arXiv:2409.09866v2 通知类型: 替换-交叉摘要：歌声包含比普通声音更加丰富多样的信息，例如多样的音质和声学特征。然而，现有的公开音频-文本数据集仅捕获了有限的属性并且缺乏声学特征，导致其在下游任务（如风格说明）中的实用性有限。为弥补这一缺口，我们正式提出了歌声风格说明任务，并引入了S2Cap数据集，该数据集包含了多样化的音质、声学和人口统计学属性的全面描述。基于此数据集，我们开发了一种简单而有效的基础算法来解决歌声风格说明问题。该算法利用了两种新型的技术组件：CRESCENDO 用于减轻预训练的单模模型之间的对齐问题，以及分离监督来规制模型使其专注于歌声。尽管算法结构简单，但所提出的方法在与最先进的基线相比时表现更优。