LLM2D

摘要

在数字时代，理解集文本、复杂布局和图像于一体的视觉丰富文档的能力至关重要。传统的关键信息提取 (KIE) 方法主要依赖于光学字符识别 (OCR)，这往往会导致显著的延迟、计算开销和错误。当前的先进图像到文本方法绕过了 OCR，但通常会生成没有对应视觉基础的纯文本输出。本文介绍了 STNet（See then Tell Net），这是一种新颖的端到端模型，旨在提供具有相关视觉基础的精确答案。与众不同的是，STNet 利用一个独特的标记来观察相关的图像区域，并辅以一个解码器来解释与该标记相关的物理坐标。该标记位于答案文本的开头，允许模型首先查看——观察与输入问题相关的图像区域——然后说出——提供清晰的文本响应。为了增强模型的视觉能力，我们收集了大量结构化的表格识别数据集。利用 GPT-4 的先进文本处理能力，我们开发了 TVG（带视觉基础的表格问答）数据集，它不仅提供了基于文本的问答 (QA) 对，而且还为这些对引入了精确的视觉基础。我们的方法证明了 KIE 性能的重大进步，在 CORD、SROIE 和 DocVQA 等公开可用的数据集上取得了最先进的结果。代码也将公开提供。