LLM2D
Mozualization:使用多模态AI创作音乐和视觉表现
Mozualization: Crafting Music and Visual Representation with Multimodal AI
作者: Wanfang Xu, Lixiang Zhao, Haiwen Song, Xinheng Song, Zhaolin Lu, Yu Liu, Min Chen, Eng Gee Lim, Lingyun Yu
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.13891v1

摘要

arXiv:2504.13891v1 声音类型: cross 摘要: 在这项工作中,我们引入了Mozualization,这是一种音乐生成和编辑工具,通过整合多种输入,如关键词、图像和声音片段(例如,来自不同音乐作品的片段,甚至是一只调皮的猫的叫声)来创建多风格嵌入音乐。我们的工作受人们表达情感方式的启发——撰写描述情绪的诗歌或文章,创作暖色调或冷色调的画作,或是聆听悲伤的或振奋人心的音乐。基于这一概念,我们开发了一种工具,能够将这些情感表达转化为一致而富有表现力的歌曲,从而使用户能够无缝地融入他们的独特偏好和灵感。为了评估该工具,并更重要的是,收集改进其性能的见解,我们对九位音乐爱好者进行了用户研究。研究评估了用户的使用体验、参与程度,以及交互和聆听生成音乐的影响。