LLM2D
评估菜单OCR和翻译:大型视觉-语言模型中的人工与自动评估对齐基准
Evaluating Menu OCR and Translation: A Benchmark for Aligning Human and Automated Evaluations in Large Vision-Language Models
作者: Zhanglin Wu, Tengfei Song, Ning Xie, Mengli Zhu, Weidong Zhang, Shuang Wu, Pengfei Li, Chong Li, Junhao Zhu, Hao Yang, Shiliang Sun
发布日期: 4/24/2025
arXiv ID: oai:arXiv.org:2504.13945v3

摘要

arXiv:2504.13945v3 公告类型: replace-cross 摘要: 大型视觉语言模型(LVLMs)的迅猛发展极大地推动了文档理解的应用,特别是在光学字符识别(OCR)和多语言翻译方面。然而,目前对LVLMs的评估,如广泛使用的OCRBench,主要集中在验证它们对短文本和简单布局长文本响应的正确性,而对其理解复杂布局设计下的长文本能力的评估虽然非常重要,但被很大程度上忽视了。在本文中,我们提出了菜单OCR和翻译基准(MOTBench),这是一种专门的评估框架,强调菜单翻译在跨文化交流中的关键作用。MOTBench 要求LVLMs准确识别并翻译菜单上的每道菜及其价格和单位项目,提供其视觉理解和语言处理能力的全面评估。我们的基准包括中文和英文菜单,这些菜单具有复杂布局、多种字体以及不同语言中的文化特异性元素,以及精确的人工标注。实验结果显示,我们的自动评估结果与专业的人类评估结果高度一致。我们评估了一系列公开的当前最先进的LVLMs,并通过分析它们的输出来识别它们的优缺点,为未来LVLM发展的指导提供了宝贵的见解。MOTBench 可在 https://github.com/gitwzl/MOTBench 上获得。