LLM2D

摘要

arXiv:2505.06411v1 类型: cross 摘要: 从仅捕捉头部和手腕的3关节观测值的头戴式设备中推断全身姿势是一项具有广泛AR/VR应用挑战性的任务。之前的努力集中在学习单一阶段的动作映射，从而导致了未观察到的肢体关节动作的过大的推断空间。这往往导致下肢预测不满意，并且时间一致性差，结果产生不现实或不连贯的动作序列。为了解决这个问题，我们提出了一种名为MAGE的强大多阶段avatar生成器，该生成器通过分阶段预测策略分解了这种直接单一阶段动作映射的学习。具体来说，给定初始3关节动作，MAGE逐步推断不同抽象粒度水平的多尺度肢体部位姿态，从6部分身体表示开始，逐步细化到22个关节。通过逐步降低抽象层次，MAGE从以前的预测阶段引入更多的动作上下文先验知识，从而通过更丰富的约束条件和更少的模糊性提高现实动作完成度。大规模数据集上的广泛实验验证了MAGE在精度和连贯性方面显著优于现有方法。