摘要
本文介绍了 ELMO,一个针对单个 LiDAR 传感器设计的实时上采样动作捕捉框架。ELMO 被建模为一个条件自回归 Transformer 基于的上采样动作生成器,能够从 20 fps 的 LiDAR 点云序列中实现 60 fps 的动作捕捉。ELMO 的关键特征是将自注意力机制与精心设计的动作和点云嵌入模块相结合,显著提高了动作质量。为了促进准确的动作捕捉,我们开发了一个一次性骨骼校准模型,能够从单帧点云中预测用户骨骼偏移。此外,我们引入了一种新颖的数据增强技术,利用 LiDAR 模拟器来增强全局根轨迹,以提高环境理解能力。为了证明我们方法的有效性,我们将 ELMO 与基于图像和基于点云的动作捕捉领域的最新方法进行了比较。我们还进行了消融研究,以验证我们的设计原则。ELMO 的快速推理时间使其非常适合实时应用,例如我们的演示视频中展示的实时流和交互式游戏场景。此外,我们贡献了一个高质量的 LiDAR-mocap 同步数据集,包含 20 个不同主题执行一系列动作,可作为未来研究的宝贵资源。数据集和评估代码可在 {\blue \url{https://movin3d.github.io/ELMO_SIGASIA2024/}} 获取。