LLM2D

摘要

arXiv:2503.22537v1 宣布类型: 交叉研究摘要: 从视频数据中重构动态资产是许多计算机视觉和图形任务的核心。现有的4D重构方法受到特定类别模型或慢速优化方法的限制。受近期大型重构模型(LRM)的启发，我们提出了一种基于变换器的前馈解决方案——大型插值模型(LIM)，它通过一种新颖的因果一致性损失，实现时间上隐式3D表示的插值。给定时间 $t_0$ 和 $t_1$ 的隐式3D表示，LIM 可以生成任意连续时间 $t \in [t_0, t_1]$ 的变形形状，并在几秒钟内提供高质量的插值帧。此外，LIM 允许时间上的显式网格追踪，生成一个一致的uv纹理网格序列，可以直接集成到现有的生产流水线中。我们还使用LIM，结合基于扩散的多视图生成器，从单目视频中生成动态4D重构。我们在各种动态数据集上评估了LIM，将其与图像空间插值方法（例如，FiLM）和直接的三平面线性插值进行比较，并展示了明显的优越性。总的来说，LIM 是第一个能够在多种类别中实现高速跟踪4D资产重构的前馈模型。