LLM2D

摘要

arXiv:2504.09588v1 跨场景公告类型：交叉摘要：通用高斯斑点技术的最新进展通过利用前馈高斯斑点模型，从稀疏输入视图中实现了稳健的3D重建，并实现了跨场景的优异泛化能力。然而，尽管许多方法专注于几何一致性，它们通常忽略了文本驱动指导在增强语义理解方面的潜力，这对于在复杂场景中准确重建精细细节至关重要。为了弥补这一局限，我们提出了TextSplat——第一个文本驱动的通用高斯斑点框架。通过采用文本引导的多种语义线索融合，我们的框架学习了稳健的多模态特征表示，从而提高几何和语义信息的对齐，生成高保真的3D重建。具体而言，我们的框架使用三个并行模块来获取互补的表示：扩散先验深度估计器用于准确的深度信息、语义意识分割网络用于详细的语义信息，以及多视图交互网络用于细化的跨视图特征。然后，在文本引导的语义融合模块中，这些表示通过基于文本引导和注意力机制的特征聚合机制进行集成，结果是富含详细语义线索的增强3D高斯参数。在各种基准数据集上的实验结果表明，与现有方法相比，在多个评估指标上具有更好的性能，验证了我们框架的有效性。代码将公开可用。