摘要
arXiv:2504.05364v1 交叉公告类型
摘 要: 尽管音乐仍然是生成模型(如变压器)的一个具有挑战性的领域,但最近一种两管齐下的方法已被证明是成功的:将与音乐相关的结构信息插入到位置编码(PE)模块中,并使用基于随机傅里叶特征(RFF)的核近似技术将计算成本从二次降低到线性。然而,尚不清楚基于RFF的高效PE与基于旋转矩阵的PE(如旋转位置编码(RoPE))相比如何。在本文中,我们基于核方法提出了一个统一框架,用于分析这两类高效PE。利用这个框架,我们开发了一种新的PE方法,称为RoPEPool,能够从时间序列中提取因果关系。通过使用基于RFF的PE和基于旋转的PE,我们展示了如何通过考虑它们诱导的内容-上下文交互关系来共同研究看似不相关的PE。为了实证验证,我们使用了符号音乐生成任务,即旋律和声编制。我们展示了RoPEPool,结合高度信息的结构先验,优于所有方法。