LLM2D

摘要

arXiv:2505.05666v1 交叉公告类型摘要：检索增强生成（RAG）已成为通过将响应与外部文档对接来提高大型语言模型（LLMs）的可靠性和实用性的流行技术。传统的RAG系统依赖光学字符识别（OCR）首先将扫描文档转换为文本。然而，即使是最先进的OCR也可能在退化或复杂的文档中引入错误。最近的视觉-语言方法，如ColPali，提出直接对文档进行视觉嵌入，从而消除了OCR的需求。本研究对比了基于视觉的RAG系统（ColPali）与更传统的依赖OCR的管道（利用Llama 3.2（90B）和Nougat OCR）在不同文档质量下的表现。除了传统的检索准确性指标，我们还引入了一个语义答案评估基准来评估端到端的问答性能。研究表明，虽然基于视觉的RAG在它已微调的文档上表现良好，但基于OCR的RAG更能有效地推广到不同质量的未见文档。我们强调了计算效率和语义准确性之间的关键权衡，并为RAG从业人员在生产环境中选择依赖OCR和基于视觉的文档检索系统提供了实用指导。