LLM2D

摘要

arXiv:2504.19460v1 交叉类型: 横向摘要: 我们介绍了一种实时、人机在环的手势控制框架，该框架能够通过分析实时视频输入，动态适应音频和音乐，并根据人类的运动。通过在视觉和听觉刺激之间建立响应连接，该系统使舞者和表演者不仅能响应音乐，还能通过他们的动作来影响音乐。该框架适用于现场表演、互动装置和个人使用，提供了一种沉浸式体验，让用户能够实时塑造音乐。该框架结合了计算机视觉和机器学习技术，用于跟踪和解释运动，使用户能够操控音频元素，如节拍、音高、效果和播放顺序。通过持续训练，该框架实现了用户独立的功能，只需50到80个样本即可标注简单的手势。该框架结合了手势训练、提示映射和音频操控，创造了动态的互动体验。手势被解释为输入信号，映射到声音控制命令，并用于自然调整音乐元素，展示了人机交互和机器响应之间的无缝交互。