摘要
arXiv:2503.16973v2 通知类型: replace-cross
摘要:人类动作-反应合成是建模因果人类交互的基本挑战之一,对于从虚拟现实到社会机器人等应用起着关键作用。虽然基于扩散的模型展示了有前景的性能,但它们在交互合成方面存在两个关键限制:依赖于复杂的声音到反应生成器以及复杂的条件机制,以及生成运动中频繁的物理违反。为了解决这些问题,我们提出了一种新的框架——动作-反应流匹配(ARFlow),该框架直接建立动作到反应的映射,消除了复杂条件机制的需要。我们的方法引入了两个关键创新:一种x1预测方法,直接输出人体运动而不是速度场,从而能够明确施加约束;以及一种无需训练、基于梯度的物理引导机制,该机制有效地防止了在采样过程中出现身体穿透伪像。在NTU120和Chi3D数据集上的广泛实验表明,ARFlow 不仅在弗雷歇伦琴距离和运动多样性方面超越了现有方法,还通过我们新提出的交集体积和交集频次度量显著减少了身体碰撞。