LLM2D

摘要

arXiv:2502.04522v2 宣布类型：替换-交叉摘要：尽管深度学习在各个领域的风格转换方面取得了显著的进步，但在为完整符号表示的音乐作品生成可控性能级别的音乐风格转换方面，依然是一个具有挑战性的研究领域。这主要归因于有限的数据集，尤其是在爵士乐等流派方面，以及缺乏能够处理多种音乐生成任务的统一模型。本文提出了即兴网（ImprovNet），这是一种基于转换器的架构，通过自监督的损坏-修正训练策略生成具有表现力和可控性的即兴音乐。即兴风格转换旨在对原作品中的一个或多个音乐元素（旋律、和声或节奏）进行有意义的修改，以适应目标流派。即兴网将多种能力整合到一个模型中：它可以进行跨流派和同一流派的即兴创作、以特定流派的风格和声旋律、执行短提示续写和填充任务。模型的迭代生成框架允许用户控制风格转换和结构相似性与原作品的程度。客观和主观的评估证明了即兴网在生成音乐上连贯的即兴创作方面，同时保持与原始作品的结构性关系的有效性。在短续写和填充任务中，该模型优于预期音乐转换器，并成功实现了可识别的流派转换，79%的参与者能够正确识别古典作品的爵士风格即兴创作。我们的代码和演示页面可以在 https://github.com/keshavbhandari/improvnet 查看。