摘要
arXiv:2504.04466v1 类型: cross
摘要:循环——设计用于无缝重复的短音频片段——在许多音乐流派中至关重要,尤其是在舞曲和电子风格中。然而,当前的生成音乐模型难以产生真正可以循环的音频,仅生成一个短的波形并不能保证其从结尾平滑过渡回到开头,常常导致听觉上的断层。循环——设计用于无缝重复的短音频片段——在许多音乐流派中至关重要,尤其是在舞曲和电子风格中。然而,当前的生成音乐模型难以产生真正可以循环的音频,仅生成一个短的波形并不能保证其从结尾平滑过渡回到开头,常常导致听觉上的断层。我们通过将非自回归模型(MAGNeT)修改为生成具有循环模式的标记,让模型在创建结尾时关注音频的开头来解决这一问题。这种仅进行推断的方法生成的音频意识到了未来的上下文,并自然地循环,而无需任何额外的训练或数据。通过计算循环接头周围的标记困惑度来评估循环过渡的一致性,观察到55%的改进。盲听测试进一步证实了基线方法的显著感知收益,平均评分提高了70%。综合来看,这些结果突显了仅进行推断的方法在改善生成模型方面的有效性,并强调了非自回归方法在意识上下文的音乐生成中的优势。