摘要
arXiv:2505.05666v1 交叉公告类型
摘要:检索增强生成(RAG)已成为通过将响应与外部文档对接来提高大型语言模型(LLMs)的可靠性和实用性的流行技术。传统的RAG系统依赖光学字符识别(OCR)首先将扫描文档转换为文本。然而,即使是最先进的OCR也可能在退化或复杂的文档中引入错误。最近的视觉-语言方法,如ColPali,提出直接对文档进行视觉嵌入,从而消除了OCR的需求。本研究对比了基于视觉的RAG系统(ColPali)与更传统的依赖OCR的管道(利用Llama 3.2(90B)和Nougat OCR)在不同文档质量下的表现。除了传统的检索准确性指标,我们还引入了一个语义答案评估基准来评估端到端的问答性能。研究表明,虽然基于视觉的RAG在它已微调的文档上表现良好,但基于OCR的RAG更能有效地推广到不同质量的未见文档。我们强调了计算效率和语义准确性之间的关键权衡,并为RAG从业人员在生产环境中选择依赖OCR和基于视觉的文档检索系统提供了实用指导。