LLM2D
评估菜单OCR和翻译:大规模视觉-语言模型中人工评价与自动化评价的基准
Evaluating Menu OCR and Translation: A Benchmark for Aligning Human and Automated Evaluations in Large Vision-Language Models
作者: Zhanglin Wu, Tengfei Song, Ning Xie, Weidong Zhang, Mengli Zhu, Shuang Wu, Shiliang Sun, Hao Yang
发布日期: 4/23/2025
arXiv ID: oai:arXiv.org:2504.13945v2

摘要

arXiv:2504.13945v2 宣布类型: 替换交叉 摘要:大型视觉语言模型(LVLMs)的快速发展在文档理解方面取得了显著进展,特别是在光学字符识别(OCR)和多语言翻译方面的应用。然而,现有的LVLM评估,如广泛使用的OCRBench,主要集中在验证它们对简短文本和简单布局文本回复的正确性,而对于它们理解和处理复杂布局设计的长文本的能力则相对忽视,这在多文化沟通中尤为重要。本文我们提出了一种专门的评估框架——菜单OCR和翻译基准(MOTBench),强调菜单翻译在跨文化交流中的重要作用。MOTBench 要求LVLMs 准确识别和翻译菜单上的每道菜及其价格和单位项目,全面评估其视觉理解和语言处理能力。我们的基准由包含中文和英文菜单组成,这些菜单具有复杂的布局、多种字体以及不同语言中的文化特定元素,同时伴有精确的人工注释。实验结果显示,我们自动评估的结果与专业的手动评估结果高度一致。我们评估了一系列公开的最先进的LVLMs,并通过分析其输出来识别其性能的强项和弱项,为未来LVLM的发展提供宝贵的指导。MOTBench 可在 https://github.com/gitwzl/MOTBench 获取。