摘要
arXiv:2502.04522v1 作品类型: 创意公告
摘要:深度学习在各种领域实现了风格迁移的重大进展,为创意内容生成提供了新的可能性。然而,在象征性音乐的领域中,由于数据集有限,尤其是对于爵士乐等流派,针对完整音乐作品生成可控且具有表现力的风格转移仍然具有挑战性。此外,缺乏能够处理多种音乐生成任务的统一模型。本文介绍了基于变压器的ImprovNet架构,该架构通过自我监督的破坏-修复训练策略生成具有表现力和可控性的即兴音乐。ImprovNet将多种能力统一在一个模型中:它可以进行跨流派和同一流派的即兴创作、以流派特定的风格和乐句进行和声处理,并执行简短的提示延伸和填空任务。该模型的迭代生成框架允许用户控制风格转移和与原始作品结构相似度的程度。客观和主观的评估表明,ImprovNet能够在保持与原始作品的结构关系的同时,有效地生成音乐连贯的即兴创作。该模型在短文本延续和填空任务中优于前瞻音乐变换器,并成功实现了可识别的流派转换,79%的参与者能够正确识别爵士风格的即兴创作。我们的代码和演示页面可在https://github.com/keshavbhandari/improvnet 查看。