LLM2D

摘要

arXiv:2504.12284v1 Announce Type: 交叉摘要：我们解决了一个新颖的问题，即给定单个RGB视图、动作文本以及物体上的3D接触点作为输入，预测3D手部运动和接触图（或交互轨迹）。我们的方法包括：(1) 交互码本：一种VQVAE模型，用于学习手部姿态和接触点的潜在码本，有效地对交互轨迹进行标记化；(2) 交互预测器：一种通过索引模块从学习到的码本中检索潜在可用性来预测测试时输入的交互轨迹的变压器-解码器模块。为了训练我们的模型，我们开发了一个数据引擎，从多样的HoloAssist数据集中提取3D手部姿态和接触轨迹。我们将在物体和交互观察多样性方面比现有工作大2.5-10倍的基准上评估我们的模型，并测试模型在不同物体类别、动作类别、任务和场景中的泛化能力。实验结果表明，我们的方法在所有设置中都优于变压器和扩散基线方法。