LLM2D

摘要

生物、环境、气候和保护科学领域对与标本相关的生物多样性数据有着迫切的需求。为了消除依赖人工转录这些数据所带来的瓶颈，需要加快从标本图像中提取数据的速度。我们应用了先进的计算机视觉技术，开发了“Hespi”（HErbarium Specimen sheet PIpeline），它可以从数字化标本图像中提取草本标本机构标签上的预目录数据子集。该流程整合了两个目标检测模型：第一个模型检测文本标签周围的边界框，第二个模型检测主要机构标签上的文本数据字段周围的边界框。该流程将文本标签分类为印刷、打字、手写或组合，并应用光学字符识别（OCR）和手写文本识别（HTR）进行数据提取。然后，识别出的文本会根据权威的分类单元名称数据库进行校正。提取的文本还会借助多模态大型语言模型（LLM）进行校正。Hespi 能够准确地检测和提取来自国际标本馆的标本图像等测试数据集的文本。该流程的组件是模块化的，用户可以使用自己的数据训练自己的模型，并将其替换为提供的模型。