LLM2D

摘要

arXiv:2310.18511v3 通知类型: 替换-交叉摘要: 在本文中，我们介绍了一种多模态2D/3D数据集3DCoMPaT$^{++}$，该数据集包含了超过1000万种精细标注的3D形状的1.6亿种渲染视图，这些形状经过精心样式化，并且还包括匹配的RGB点云、3D贴图网格、深度图和分割掩码。3DCoMPaT$^{++}$涵盖了41种形状类别、275种精细类别部分以及293种可组合应用到3D对象部分的精细材料类别。我们从四种等间距视角渲染了一百万种样式化形状的一部分，并且渲染了四种随机视角，总共产生了1.6亿种渲染图。部分在实例级别进行了分割，并且包含粗粒度和细粒度语义级别。我们引入了一个新的任务，称为Grounded CoMPaT Recognition (GCR)，用于集体识别和定位3D对象部分上材料的组合。此外，我们报告了在CVPR2023组织的数据挑战的结果，展示了获胜方法使用了在六维输入上训练的修改后的PointNet$^{++}$模型，并探讨了GCR增强的其他技术。我们希望我们的工作能够帮助未来在组合3D视觉研究中的进展。