LLM2D

摘要

arXiv:2505.01530v1 视图类型: cross 摘要：从2D工程图纸中准确提取关键信息对于高精度制造至关重要。手动提取耗时且容易出错，而传统的光学字符识别（OCR）技术在处理复杂布局和重叠符号时常常无法应对，导致输出结构混乱。为了解决这些挑战，本文提出了一种新的混合深度学习框架，通过结合定向边界框（OBB）检测模型与基于变压器的文档解析模型（Donut）来进行结构化信息提取。使用内部标注数据集训练YOLOv11来检测九个关键类别：几何尺寸和公差（GD&T）、一般公差、尺寸、材料、注释、圆角、表面粗糙度、螺纹和标题栏。检测得到的OBB被裁剪成图像并标注，以微调Donut以获得结构化的JSON输出。微调策略包括一个在所有类别上训练的单一模型和针对特定类别的模型。结果显示，单一模型在所有评估指标上都能持续超越特定类别模型，在GD&T中实现了更高的精确度（94.77%），在大多数情况下达到了100%的召回率，F1分数为97.3%，同时降低了幻觉现象（5.23%）。提出的框架提高了准确性，减少了手动工作量，并支持在以精度驱动的行业中的可扩展部署。