摘要
arXiv:2308.04729v2 生成类型: 替换-交叉
摘要:随着深度生成模型的发展,音乐生成已经引起了越来越多的关注。然而,基于文本描述生成音乐,即文本到音乐,由于音乐结构的复杂性和高采样率要求,仍然具有挑战性。尽管这项任务十分重要,当前的生成模型在音乐质量、计算效率和泛化能力方面仍存在局限性。本文介绍了JEN-1,这是一种用于文本到音乐生成的通用高保真模型。JEN-1 结合了自回归和非自回归训练。通过上下文学习,JEN-1 可执行包括文本引导音乐生成、音乐填补和续写在内的多种生成任务。评估结果显示,JEN-1 在文本-音乐对齐和音乐质量方面优于现有最佳方法,同时保持了计算效率。我们的演示可在 https://jenmusic.ai/audio-demos 获取