LLM2D

摘要

arXiv:2505.00615v1 屈曲类型: 交叉摘要: 我们解决了从单张RGB图像重建人体面部三维结构的问题。为此，我们提出了一种高度通用的视觉变压器集合，Pixel3DMM，用于预测每个像素的几何线索，以约束3D可变面部模型（3DMM）的优化。我们利用DINO基础模型的潜在特征，并引入了专门的法线和平面坐标预测头部。我们通过将三个高质量的3D面部数据集注册到FLAME网格拓扑上来训练我们的模型，从而总共获得超过1000个身份和976K张图像。对于3D面部重建，我们提出了一种FLAME拟合优化方法，该方法从平面坐标和平面估计值中求解3DMM参数。为了评估我们的方法，我们引入了一个新的单图面部重建基准，该基准具有高度多样的面部表情、视角和种族特征。至关重要的是，我们的基准是第一个同时评估有表情和中立面部几何结构的方法。最终，我们的方法在有表情面部几何结构的几何精度上比最竞争的基线高出15%以上。