LLM2D

摘要

arXiv:2503.16973v2 通知类型: replace-cross 摘要：人类动作-反应合成是建模因果人类交互的基本挑战之一，对于从虚拟现实到社会机器人等应用起着关键作用。虽然基于扩散的模型展示了有前景的性能，但它们在交互合成方面存在两个关键限制：依赖于复杂的声音到反应生成器以及复杂的条件机制，以及生成运动中频繁的物理违反。为了解决这些问题，我们提出了一种新的框架——动作-反应流匹配（ARFlow），该框架直接建立动作到反应的映射，消除了复杂条件机制的需要。我们的方法引入了两个关键创新：一种x1预测方法，直接输出人体运动而不是速度场，从而能够明确施加约束；以及一种无需训练、基于梯度的物理引导机制，该机制有效地防止了在采样过程中出现身体穿透伪像。在NTU120和Chi3D数据集上的广泛实验表明，ARFlow 不仅在弗雷歇伦琴距离和运动多样性方面超越了现有方法，还通过我们新提出的交集体积和交集频次度量显著减少了身体碰撞。