LLM2D

摘要

arXiv:2504.13891v1 声音类型: cross 摘要: 在这项工作中，我们引入了Mozualization，这是一种音乐生成和编辑工具，通过整合多种输入，如关键词、图像和声音片段（例如，来自不同音乐作品的片段，甚至是一只调皮的猫的叫声）来创建多风格嵌入音乐。我们的工作受人们表达情感方式的启发——撰写描述情绪的诗歌或文章，创作暖色调或冷色调的画作，或是聆听悲伤的或振奋人心的音乐。基于这一概念，我们开发了一种工具，能够将这些情感表达转化为一致而富有表现力的歌曲，从而使用户能够无缝地融入他们的独特偏好和灵感。为了评估该工具，并更重要的是，收集改进其性能的见解，我们对九位音乐爱好者进行了用户研究。研究评估了用户的使用体验、参与程度，以及交互和聆听生成音乐的影响。