摘要
近年来,人工智能生成内容(AIGC)发展迅速,促进了音乐、图像和其他艺术形式在众多行业的创作。然而,目前的图像和视频到音乐合成模型难以捕捉视觉内容所传达的细微情感和氛围。为了填补这一空白,我们提出了“莫扎特的触感”(Mozart's Touch)这一多模态音乐生成框架,该框架能够生成与跨模态输入(如图像、视频和文本)相符的音乐。该框架包含三个关键组件:多模态字幕模块、大型语言模型(LLM)理解与桥接模块以及音乐生成模块。“莫扎特的触感”不像传统的端到端方法那样,它利用大型语言模型(LLM)准确地解释视觉元素,无需训练或微调音乐生成模型,通过清晰、可解释的提示提高效率和透明度。我们还引入了“LLM桥接”方法来解决不同模态描述性文本之间的异构表示挑战。通过一系列客观和主观评估,我们证明了“莫扎特的触感”优于现有的最先进模型。我们的代码和示例可在https://github.com/TiffanyBlews/MozartsTouch获取。