摘要
arXiv:2504.04466v2 通告类型: 交叉替换
摘要:循环——旨在无缝重复的简短音频片段——在许多音乐流派中起着核心作用,尤其是那些根植于舞蹈和电子风格的流派。然而,当前的生成音乐模型在生成真正可循环的音频方面面临挑战,因为仅生成一个简短的波形并不保证从其结束点平滑过渡回其起点,经常会导致可听到的不连续性。循环——旨在无缝重复的简短音频片段——在许多音乐流派中起着核心作用,尤其是那些根植于舞蹈和电子风格的流派。然而,当前的生成音乐模型在生成真正可循环的音频方面面临挑战,因为仅生成一个简短的波形并不保证从其结束点平滑过渡回其起点,经常会导致可听到的不连续性。为了解决这一差距,我们修改了一个非自回归模型(MAGNeT),使其生成令牌呈圆形模式,让模型在创建其终点时注意音频的开头。这种仅推断的方法生成的结果能够意识到未来的上下文并自然循环,无需任何额外的训练或数据。我们通过计算循环接缝周围的令牌困惑度来评估循环过渡的一致性,观察到55%的提高。盲听测试进一步确认了与基准方法相比,感知方面的显著改进,平均评分提高70%。综合这些结果,突显了仅推断方法在提高生成模型方面的有效性,并强调了非自回归方法在上下文感知音乐生成方面的优势。