LLM2D
“献给爱丽丝”:捕捉并物理合成钢琴演奏的手部动作
F\"urElise: Capturing and Physically Synthesizing Hand Motions of Piano Performance
作者: Ruocheng Wang, Pei Xu, Haochen Shi, Elizabeth Schumann, C. Karen Liu
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05791v1

摘要

钢琴演奏需要敏捷、精确和协调的双手控制,这挑战了人类灵巧性的极限。能够精确再现钢琴演奏的复杂手部运动模型在角色动画、具身人工智能、生物力学和 VR/AR 等领域有着广泛的应用。本文构建了首个大型数据集,包含来自 15 位精英级钢琴家演奏 153 首古典音乐作品的约 10 小时 3D 手部运动和音频数据。为了捕捉自然演奏,我们设计了一种无标记的设置,使用最先进的姿态估计模型从多视角视频中重建运动。通过使用来自专门的雅马哈 Disklavier 钢琴传感器的⾼分辨率 MIDI 键按下数据,使用逆运动学进一步优化运动数据。利用收集的数据集,我们开发了一条管道,可以为数据集之外的乐谱合成物理上合理的⼿部运动。我们的方法结合了模仿学习和强化学习,以获得基于物理的双⼿控制策略,包括⼿与钢琴键之间的交互。为了解决大型运动数据集的采样效率问题,我们使用扩散模型来生成自然的参考运动,这些运动提供高水平的轨迹和指法(手指顺序和放置)信息。然而,仅凭生成的参考运动不足以提供钢琴演奏建模所需的精度。然后,我们通过使用音乐相似性从捕获的数据集中检索类似运动来进一步增强数据,以提高 RL 策略的精度。通过提出的方法,我们的模型生成了自然的、灵巧的运动,这些运动可以推广到训练数据集之外的音乐。