LLM2D

摘要

arXiv:2504.11477v1 公告类型: cross 摘要: 基于计算机视觉(CV)的结构损伤识别模型在分类和定位损伤方面显示出显著的准确性。然而，这些模型在实际工程应用中存在几个关键的限制，特别是在土木工程(CE)领域。首先，它们识别损伤类型的能力受到限制，无法全面分析真实世界CE结构中多种复杂条件。其次，这些模型缺乏语言能力，无法通过自然语言描述结构损伤特性。随着人工智能(AI)的不断进步，大型多模态模型(LMMs)已作为一种变革性的解决方案出现，能够统一编码和对齐文本和视觉数据。这些模型可以自主生成详细的结构损伤描述性叙述，同时在各种场景和任务中表现出强大的泛化能力。本研究引入了SDIGLM，一种基于开源VisualGLM-6B架构开发的创新LMM，用于结构损伤识别。为了解决将LMM适应CE复杂多变的工作环境的挑战，本文整合了一个基于U-Net的语义分割模块，生成缺陷分割图作为视觉链式思维(CoT)。此外，构建了一个多轮对话微调数据集以增强逻辑推理能力，并通过提示工程技术形成了语言CoT。借助这种多模态CoT，SDIGLM在结构损伤识别中超越了一般用途的LMMs，在各种基础设施类型中达到了95.24%的准确性。此外，该模型有效地描述了损伤特性，如孔径大小、裂缝方向和腐蚀严重程度。