LLM2D

摘要

arXiv:2409.11887v2 Announce Type: replace-cross 摘要：近年来，具有丰富视觉信息的文档理解受到了越来越多的关注。基于变换器的预训练模型已成为该领域的主流方法，显著提升了性能。然而，自注意力机制的二次计算复杂性阻碍了其效率，并限制了其处理长文档的能力。本文我们提出了一种新的基于状态空间模型的框架DocMamba，旨在通过保持全局建模能力的同时将计算复杂度降低为线性。为了进一步增强其在文档处理中的有效性，我们引入了Segment-First Bidirectional Scan（SFBS）以捕捉连续的语义信息。实验结果表明，DocMamba在FUNSD、CORD和SORIE等下游数据集上取得了新的最佳结果，同时显著提高了速度并减少了内存使用。值得注意的是，HRDoc上的实验验证了DocMamba在长度外推方面的潜力。