LLM2D

摘要

arXiv:2412.01175v2 宣告类型: 替换交叉摘要：我们引入了OBI-Bench，这是一个全面的基准测试，旨在系统地评估大型多模态模型（LMMs）在需要专家级领域知识和深思熟虑认知的整个过程甲骨文处理任务。OBI-Bench 包括5,523张精心收集的多来源图像，涵盖了五个关键领域的难题：识别、重新组合、分类、检索和破译。这些图像涵盖了考古发现和一线研究学者多年来的工作范围，包括从发掘到合成的多个阶段的字体外观，如原始甲骨文、墨书拓片、甲骨文碎片、提取的单字以及手写字符。与现有的基准测试不同，OBI-Bench关注于甲骨文特定的高级视觉感知和推理，挑战LMMs在任务上表现得像专家一样。对6种专有LMMs以及17种开源LMMs的评估揭示了OBI-Bench带来的重大挑战和要求。即使是GPT-4o、Gemini 1.5 Pro和Qwen-VL-Max的最新版本，在某些细微的感知任务中仍然远远落后于公众级别的普通人类。然而，它们在破译任务上的表现与未经训练的人类相当，表明它们在提供新的解释视角和生成创造性猜测方面具有显著的能力。我们希望OBI-Bench能够促进社区开发针对古代语言研究的多模态领域模型，并进一步深入发掘和增强这些尚未充分利用的LMM潜力。