摘要
arXiv:2504.04085v1 交叉公告类型:cross
摘要:文档图像分割对于文档分析和识别至关重要,但由于文档格式和分割任务的多样性,仍然存在挑战。现有方法通常单独处理这些任务,导致泛化能力有限和资源浪费。本文介绍了一种名为DocSAM的基于Transformer的统一框架,该框架旨在通过将任务建模为实例分割和语义分割的组合,应用于各种文档图像分割任务,如文档布局分析、多粒度文本分割和表格结构识别。具体来说,DocSAM利用Sentence-BERT将每个数据集中的类别名称映射为与实例查询匹配维度的语义查询。这两个查询集合通过注意机制相互作用,并与图像特征进行交叉注意,以预测实例和语义分割掩码。实例类别通过计算实例查询和语义查询之间的点积并进行softmax归一化后预测。因此,DocSAM可以在异构数据集上联合训练,提高鲁棒性和泛化能力,同时减少计算和存储资源。全面评估表明,DocSAM在准确性、效率和适应性方面超过了现有方法,突显了其在各种应用中改进文档图像理解和分割的潜力。代码可在https://github.com/xhli-git/DocSAM获取。