LLM2D

摘要

arXiv:2504.00414v1 Announce Type: cross 摘要：我们研究了多模态大规模语言模型（mLLMs）如何帮助研究人员转录历史文件，提取相关信息，并从历史来源构建数据集。具体而言，我们研究了mLLMs在以下任务上的能力：（1）光学字符识别（OCR），（2）OCR后校正，以及（3）命名实体识别（NER），这些任务是基于1754年至1870年间出版的德语城市目录。首先，我们比较了mLLMs和传统OCR模型的现成转录准确性。我们发现，表现最好的mLLM模型显著优于传统的最先进的OCR模型和其他前沿的mLLMs。其次，我们首次使用mLLMs对OCR输出进行多模态后校正。我们发现，这种新颖的方法在转录准确性上取得了 drastic 的改进，并且一致地产生了非常准确的转录结果（CER <1%），而无需进行任何图像预处理或模型微调。第三，我们展示了mLLMs如何高效地识别历史文件转录中的实体，并将它们解析为结构化数据集格式。我们的发现为mLLMs在未来改变历史数据收集和文档转录方法的长期潜力提供了初步证据。