LLM2D
失陷于OCR翻译?基于视觉的方法实现稳健的文档检索
Lost in OCR Translation? Vision-Based Approaches to Robust Document Retrieval
作者: Alexander Most, Joseph Winjum, Ayan Biswas, Shawn Jones, Nishath Rajiv Ranasinghe, Dan O'Malley, Manish Bhattarai
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2505.05666v1

摘要

arXiv:2505.05666v1 交叉公告类型 摘要:检索增强生成(RAG)已成为通过将响应与外部文档对接来提高大型语言模型(LLMs)的可靠性和实用性的流行技术。传统的RAG系统依赖光学字符识别(OCR)首先将扫描文档转换为文本。然而,即使是最先进的OCR也可能在退化或复杂的文档中引入错误。最近的视觉-语言方法,如ColPali,提出直接对文档进行视觉嵌入,从而消除了OCR的需求。本研究对比了基于视觉的RAG系统(ColPali)与更传统的依赖OCR的管道(利用Llama 3.2(90B)和Nougat OCR)在不同文档质量下的表现。除了传统的检索准确性指标,我们还引入了一个语义答案评估基准来评估端到端的问答性能。研究表明,虽然基于视觉的RAG在它已微调的文档上表现良好,但基于OCR的RAG更能有效地推广到不同质量的未见文档。我们强调了计算效率和语义准确性之间的关键权衡,并为RAG从业人员在生产环境中选择依赖OCR和基于视觉的文档检索系统提供了实用指导。