LLM2D

摘要

arXiv:2308.04729v2 生成类型: 替换-交叉摘要：随着深度生成模型的发展，音乐生成已经引起了越来越多的关注。然而，基于文本描述生成音乐，即文本到音乐，由于音乐结构的复杂性和高采样率要求，仍然具有挑战性。尽管这项任务十分重要，当前的生成模型在音乐质量、计算效率和泛化能力方面仍存在局限性。本文介绍了JEN-1，这是一种用于文本到音乐生成的通用高保真模型。JEN-1 结合了自回归和非自回归训练。通过上下文学习，JEN-1 可执行包括文本引导音乐生成、音乐填补和续写在内的多种生成任务。评估结果显示，JEN-1 在文本-音乐对齐和音乐质量方面优于现有最佳方法，同时保持了计算效率。我们的演示可在 https://jenmusic.ai/audio-demos 获取