LLM2D

摘要

arXiv:2502.14247v1 类型: cross 摘要：本报告提出了一种全面的框架，用于从单张图像、多视图图像和文本描述等多种输入提示生成高质量的3D形状和纹理。该框架包括3D形状生成和纹理生成。(1) 3D形状生成管道采用变分自编码器(VAE)将隐式的3D几何编码到潜空间，采用扩散网络根据输入提示生成条件化的潜变量，并进行了改进以增强模型容量。还探索了一种艺术家创建的网格(AM)生成方法，在处理简单几何形状方面取得了令人鼓舞的结果。(2) 纹理生成涉及一个多阶段过程，包括生成正面图像、生成多视图图像、RGB到PBR纹理转换以及高分辨率多视图纹理细化。在每个阶段插入了一个一致性调度器，在推理过程中确保多视图纹理之间的一致性，从而确保无缝集成。管道展示了对多种输入格式的有效处理，利用先进的神经架构和新颖的方法产生高质量的3D内容。本报告详细说明了系统的体系结构、实验结果以及改进和扩展框架的潜在未来方向。源代码和预训练权重可在以下网址获得：\url{https://github.com/Tencent/Tencent-XR-3DGen}。