LLM2D
基于情绪对齐和时间边界生成视频 soundtrack
Video Soundtrack Generation by Aligning Emotions and Temporal Boundaries
作者: Serkan Sulun, Paula Viana, Matthew E. P. Davies
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.10154v1

摘要

arXiv:2502.10154v1 交叉类型公告 摘要:我们提出了一种名为EMSYNC的基于视频的符号音乐生成模型,该模型能够使音乐与视频的情感内容和时间边界相匹配。该模型采用了两阶段框架,首先,预训练的视频情绪分类器提取情感特征;然后,条件音乐生成器根据情感和时间线索生成MIDI序列。我们引入了边界偏移(Boundary Offsets)这一新颖的时间条件机制,使模型能够预测并调整音乐和场景剪辑之间的关联。与现有模型不同,我们的方法保留了事件编码,从而确保了精细的时间控制和表达性音乐细节。我们还提出了一种映射方案,将视频情绪分类器产生的离散情绪类别与基于连续情感(快感-唤醒值)的MIDI生成器相连接。在主观听音测试中,EMSYNC在所有主观指标上均超过了最先进的模型,这一结果对于音乐理论意识的参与者和普通听众都成立。