LLM2D

摘要

arXiv:2504.04085v1 交叉公告类型：cross 摘要：文档图像分割对于文档分析和识别至关重要，但由于文档格式和分割任务的多样性，仍然存在挑战。现有方法通常单独处理这些任务，导致泛化能力有限和资源浪费。本文介绍了一种名为DocSAM的基于Transformer的统一框架，该框架旨在通过将任务建模为实例分割和语义分割的组合，应用于各种文档图像分割任务，如文档布局分析、多粒度文本分割和表格结构识别。具体来说，DocSAM利用Sentence-BERT将每个数据集中的类别名称映射为与实例查询匹配维度的语义查询。这两个查询集合通过注意机制相互作用，并与图像特征进行交叉注意，以预测实例和语义分割掩码。实例类别通过计算实例查询和语义查询之间的点积并进行softmax归一化后预测。因此，DocSAM可以在异构数据集上联合训练，提高鲁棒性和泛化能力，同时减少计算和存储资源。全面评估表明，DocSAM在准确性、效率和适应性方面超过了现有方法，突显了其在各种应用中改进文档图像理解和分割的潜力。代码可在https://github.com/xhli-git/DocSAM获取。