LLM2D

摘要

arXiv:2409.04196v2 宣告类型: replace-cross 摘要：从单目图像重建摆姿势的人体3D模型在体育产业中有重要应用，包括表现跟踪、受伤预防和虚拟训练。在这项工作中，我们将3D人体姿态和形状估计与3D高斯点（3DGS）相结合，这是一种由高斯混合组成的场景表示。这使得我们可以在仅使用多视角图像的情况下训练或微调人体模型预测器，而无需3D地面实况。从单张输入图像预测这样的混合物由于自遮挡和关节依赖性而具有挑战性，同时也需要保留足够的灵活性以适应各种服装和姿态。我们的关键观察是，标准化人体网格（如SMPL）的顶点可以提供适当的空间密度并近似初始位置，从而用于高斯点。然后，我们可以训练一个变压器模型，联合预测这些位置的相对较小的调整，以及其他3DGS属性和SMPL参数。我们通过实验表明，这种组合（仅使用多视角监督）可以在不使用昂贵的扩散模型或3D点监督的情况下，从单张图像实时推断3D人体模型，因此使其成为任何水平体育产业的理想选择。更重要的是，渲染是一个有效的辅助目标，通过考虑衣物和其他几何变化来细化3D姿态估计。代码可在 https://github.com/prosperolo/GST 获取。