LLM2D
JEN-1: 由文本引导的全域扩散模型通用音乐生成
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models
作者: Peike Li, Boyu Chen, Yao Yao, Yikai Wang, Allen Wang, Alex Wang
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2308.04729v2

摘要

arXiv:2308.04729v2 生成类型: 替换-交叉 摘要:随着深度生成模型的发展,音乐生成已经引起了越来越多的关注。然而,基于文本描述生成音乐,即文本到音乐,由于音乐结构的复杂性和高采样率要求,仍然具有挑战性。尽管这项任务十分重要,当前的生成模型在音乐质量、计算效率和泛化能力方面仍存在局限性。本文介绍了JEN-1,这是一种用于文本到音乐生成的通用高保真模型。JEN-1 结合了自回归和非自回归训练。通过上下文学习,JEN-1 可执行包括文本引导音乐生成、音乐填补和续写在内的多种生成任务。评估结果显示,JEN-1 在文本-音乐对齐和音乐质量方面优于现有最佳方法,同时保持了计算效率。我们的演示可在 https://jenmusic.ai/audio-demos 获取