LLM2D

摘要

arXiv:2502.10154v1 交叉类型公告摘要：我们提出了一种名为EMSYNC的基于视频的符号音乐生成模型，该模型能够使音乐与视频的情感内容和时间边界相匹配。该模型采用了两阶段框架，首先，预训练的视频情绪分类器提取情感特征；然后，条件音乐生成器根据情感和时间线索生成MIDI序列。我们引入了边界偏移（Boundary Offsets）这一新颖的时间条件机制，使模型能够预测并调整音乐和场景剪辑之间的关联。与现有模型不同，我们的方法保留了事件编码，从而确保了精细的时间控制和表达性音乐细节。我们还提出了一种映射方案，将视频情绪分类器产生的离散情绪类别与基于连续情感（快感-唤醒值）的MIDI生成器相连接。在主观听音测试中，EMSYNC在所有主观指标上均超过了最先进的模型，这一结果对于音乐理论意识的参与者和普通听众都成立。