摘要
arXiv:2504.13891v1 声音类型: cross
摘要: 在这项工作中,我们引入了Mozualization,这是一种音乐生成和编辑工具,通过整合多种输入,如关键词、图像和声音片段(例如,来自不同音乐作品的片段,甚至是一只调皮的猫的叫声)来创建多风格嵌入音乐。我们的工作受人们表达情感方式的启发——撰写描述情绪的诗歌或文章,创作暖色调或冷色调的画作,或是聆听悲伤的或振奋人心的音乐。基于这一概念,我们开发了一种工具,能够将这些情感表达转化为一致而富有表现力的歌曲,从而使用户能够无缝地融入他们的独特偏好和灵感。为了评估该工具,并更重要的是,收集改进其性能的见解,我们对九位音乐爱好者进行了用户研究。研究评估了用户的使用体验、参与程度,以及交互和聆听生成音乐的影响。