LLM2D

摘要

arXiv:2502.02610v1 类型: 新发表摘要: 音乐是一种深刻个人化的体验，我们的目标是通过一个完全自动化的个性化音乐视频生成管道来增强这种体验。我们的工作使得听众不仅仅是消费者，还可以成为音乐视频生成过程中的共同创造者，通过基于歌词、节奏和音乐情感创建个性化的、一致的和情境驱动的视觉效果。管道结合了多模态翻译和生成技术，并利用低秩适应对听众的图像进行处理，从而创造出既反映音乐又反映个人的沉浸式音乐视频。为了确保用户身份的伦理使用，我们还引入了 CHARCHA（暂未授予专利）——一种面部身份验证协议，该协议在保护人们免受未经授权使用其面部的同时，还从用户那里收集授权图像以个性化其视频。因此，本文提供了一个安全且创新的框架，用于创建高度个性化的音乐视频。