摘要
arXiv:2504.19460v1 交叉类型: 横向
摘要: 我们介绍了一种实时、人机在环的手势控制框架,该框架能够通过分析实时视频输入,动态适应音频和音乐,并根据人类的运动。通过在视觉和听觉刺激之间建立响应连接,该系统使舞者和表演者不仅能响应音乐,还能通过他们的动作来影响音乐。该框架适用于现场表演、互动装置和个人使用,提供了一种沉浸式体验,让用户能够实时塑造音乐。
该框架结合了计算机视觉和机器学习技术,用于跟踪和解释运动,使用户能够操控音频元素,如节拍、音高、效果和播放顺序。通过持续训练,该框架实现了用户独立的功能,只需50到80个样本即可标注简单的手势。该框架结合了手势训练、提示映射和音频操控,创造了动态的互动体验。手势被解释为输入信号,映射到声音控制命令,并用于自然调整音乐元素,展示了人机交互和机器响应之间的无缝交互。