摘要
arXiv:2504.13945v3
公告类型: replace-cross
摘要: 大型视觉语言模型(LVLMs)的迅猛发展极大地推动了文档理解的应用,特别是在光学字符识别(OCR)和多语言翻译方面。然而,目前对LVLMs的评估,如广泛使用的OCRBench,主要集中在验证它们对短文本和简单布局长文本响应的正确性,而对其理解复杂布局设计下的长文本能力的评估虽然非常重要,但被很大程度上忽视了。在本文中,我们提出了菜单OCR和翻译基准(MOTBench),这是一种专门的评估框架,强调菜单翻译在跨文化交流中的关键作用。MOTBench 要求LVLMs准确识别并翻译菜单上的每道菜及其价格和单位项目,提供其视觉理解和语言处理能力的全面评估。我们的基准包括中文和英文菜单,这些菜单具有复杂布局、多种字体以及不同语言中的文化特异性元素,以及精确的人工标注。实验结果显示,我们的自动评估结果与专业的人类评估结果高度一致。我们评估了一系列公开的当前最先进的LVLMs,并通过分析它们的输出来识别它们的优缺点,为未来LVLM发展的指导提供了宝贵的见解。MOTBench 可在 https://github.com/gitwzl/MOTBench 上获得。