摘要
arXiv:2409.11887v2 Announce Type: replace-cross
摘要:近年来,具有丰富视觉信息的文档理解受到了越来越多的关注。基于变换器的预训练模型已成为该领域的主流方法,显著提升了性能。然而,自注意力机制的二次计算复杂性阻碍了其效率,并限制了其处理长文档的能力。本文我们提出了一种新的基于状态空间模型的框架DocMamba,旨在通过保持全局建模能力的同时将计算复杂度降低为线性。为了进一步增强其在文档处理中的有效性,我们引入了Segment-First Bidirectional Scan(SFBS)以捕捉连续的语义信息。实验结果表明,DocMamba在FUNSD、CORD和SORIE等下游数据集上取得了新的最佳结果,同时显著提高了速度并减少了内存使用。值得注意的是,HRDoc上的实验验证了DocMamba在长度外推方面的潜力。