摘要
arXiv:2504.09588v1 跨场景公告类型:交叉
摘要:通用高斯斑点技术的最新进展通过利用前馈高斯斑点模型,从稀疏输入视图中实现了稳健的3D重建,并实现了跨场景的优异泛化能力。然而,尽管许多方法专注于几何一致性,它们通常忽略了文本驱动指导在增强语义理解方面的潜力,这对于在复杂场景中准确重建精细细节至关重要。为了弥补这一局限,我们提出了TextSplat——第一个文本驱动的通用高斯斑点框架。通过采用文本引导的多种语义线索融合,我们的框架学习了稳健的多模态特征表示,从而提高几何和语义信息的对齐,生成高保真的3D重建。具体而言,我们的框架使用三个并行模块来获取互补的表示:扩散先验深度估计器用于准确的深度信息、语义意识分割网络用于详细的语义信息,以及多视图交互网络用于细化的跨视图特征。然后,在文本引导的语义融合模块中,这些表示通过基于文本引导和注意力机制的特征聚合机制进行集成,结果是富含详细语义线索的增强3D高斯参数。在各种基准数据集上的实验结果表明,与现有方法相比,在多个评估指标上具有更好的性能,验证了我们框架的有效性。代码将公开可用。