LLM2D

摘要

arXiv:2412.17965v2 通知类型：替换-交叉摘要：自动化大规模无结构数据处理对于运营效率至关重要。光学字符识别（OCR）至关重要，但往往在复杂布局和含糊不清的文本方面难以保证准确性和效率。这些挑战在需要速度和精度的大型任务中尤为突出。本文提出了基于大型模型投票的机器人流程自动化系统（LMV-RPA）以增强OCR工作流程。LMV-RPA 将Paddle OCR、Tesseract OCR、Easy OCR 和 DocTR等OCR引擎的输出与LLM（大型语言模型）如LLaMA 3和Gemini-1.5-pro集成。利用多数投票机制，将OCR输出转换为结构化的JSON格式，提高准确性，特别是在复杂布局方面。多阶段管道流程通过LLM处理OCR引擎提取的文本，结合结果以确保最准确的输出。LMV-RPA 在OCR任务中的准确率达到99%，超过了基准模型94%的准确率，同时将处理时间减少了80%。基准评估证实了其可扩展性，并展示了LMV-RPA 为自动化大规模文件处理任务提供的更快、更可靠、更高效的解决方案。