LLM2D

摘要

arXiv:2504.13945v3 公告类型: replace-cross 摘要: 大型视觉语言模型（LVLMs）的迅猛发展极大地推动了文档理解的应用，特别是在光学字符识别（OCR）和多语言翻译方面。然而，目前对LVLMs的评估，如广泛使用的OCRBench，主要集中在验证它们对短文本和简单布局长文本响应的正确性，而对其理解复杂布局设计下的长文本能力的评估虽然非常重要，但被很大程度上忽视了。在本文中，我们提出了菜单OCR和翻译基准（MOTBench），这是一种专门的评估框架，强调菜单翻译在跨文化交流中的关键作用。MOTBench 要求LVLMs准确识别并翻译菜单上的每道菜及其价格和单位项目，提供其视觉理解和语言处理能力的全面评估。我们的基准包括中文和英文菜单，这些菜单具有复杂布局、多种字体以及不同语言中的文化特异性元素，以及精确的人工标注。实验结果显示，我们的自动评估结果与专业的人类评估结果高度一致。我们评估了一系列公开的当前最先进的LVLMs，并通过分析它们的输出来识别它们的优缺点，为未来LVLM发展的指导提供了宝贵的见解。MOTBench 可在 https://github.com/gitwzl/MOTBench 上获得。