摘要
在数字时代,理解集文本、复杂布局和图像于一体的视觉丰富文档的能力至关重要。传统的关键信息提取 (KIE) 方法主要依赖于光学字符识别 (OCR),这往往会导致显著的延迟、计算开销和错误。当前的先进图像到文本方法绕过了 OCR,但通常会生成没有对应视觉基础的纯文本输出。本文介绍了 STNet(See then Tell Net),这是一种新颖的端到端模型,旨在提供具有相关视觉基础的精确答案。与众不同的是,STNet 利用一个独特的标记来观察相关的图像区域,并辅以一个解码器来解释与该标记相关的物理坐标。该标记位于答案文本的开头,允许模型首先查看——观察与输入问题相关的图像区域——然后说出——提供清晰的文本响应。为了增强模型的视觉能力,我们收集了大量结构化的表格识别数据集。利用 GPT-4 的先进文本处理能力,我们开发了 TVG(带视觉基础的表格问答)数据集,它不仅提供了基于文本的问答 (QA) 对,而且还为这些对引入了精确的视觉基础。我们的方法证明了 KIE 性能的重大进步,在 CORD、SROIE 和 DocVQA 等公开可用的数据集上取得了最先进的结果。代码也将公开提供。