LLM2D

摘要

arXiv:2504.13945v1 类型: cross 摘要：大型视觉语言模型（LVLMs）的快速发展显著推动了文档理解的应用，特别是在光学字符识别（OCR）和多语言翻译方面的应用。然而，目前对LVLMs的评估，如广泛使用的OCRBench，主要集中在验证其简短文本响应和简单布局长文本响应的正确性，而对其理解复杂布局设计的长文本能力的评估至关重要却经常被忽视。在本文中，我们提出了一种专门的评估框架Menu OCR和翻译基准（MOTBench），突显了菜单翻译在跨文化交流中的关键作用。MOTBench 要求LVLMs 准确识别并翻译菜单上每道菜及其价格和单位项目，从而对其视觉理解和语言处理能力进行全面评估。我们的基准涵盖了中英文菜单的集合，这些菜单具有复杂的布局、多种字体，并且在不同语言中包含文化特定的元素，同时还附有人工精确注释。实验结果表明，我们的自动评估结果与专业的人类评估高度一致。我们评估了多种公开的最先进的LVLMs，并通过分析它们的输出来确定其表现的优势和不足，为未来LVLM的发展提供了有价值的见解。MOTBench可在 https://github.com/gitwzl/MOTBench 获得。