LLM2D
基于大型模型投票的机器人process自动化
LMV-RPA: Large Model Voting-based Robotic Process Automation
作者: Osama Abdellatif, Ahmed Ayman, Ali Hamdi
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2412.17965v2

摘要

arXiv:2412.17965v2 通知类型:替换-交叉 摘要:自动化大规模无结构数据处理对于运营效率至关重要。光学字符识别(OCR)至关重要,但往往在复杂布局和含糊不清的文本方面难以保证准确性和效率。这些挑战在需要速度和精度的大型任务中尤为突出。本文提出了基于大型模型投票的机器人流程自动化系统(LMV-RPA)以增强OCR工作流程。LMV-RPA 将Paddle OCR、Tesseract OCR、Easy OCR 和 DocTR等OCR引擎的输出与LLM(大型语言模型)如LLaMA 3和Gemini-1.5-pro集成。利用多数投票机制,将OCR输出转换为结构化的JSON格式,提高准确性,特别是在复杂布局方面。多阶段管道流程通过LLM处理OCR引擎提取的文本,结合结果以确保最准确的输出。LMV-RPA 在OCR任务中的准确率达到99%,超过了基准模型94%的准确率,同时将处理时间减少了80%。基准评估证实了其可扩展性,并展示了LMV-RPA 为自动化大规模文件处理任务提供的更快、更可靠、更高效的解决方案。