LLM2D
SDIGLM:利用大型语言模型和多模态链式思考进行结构损伤识别
SDIGLM: Leveraging Large Language Models and Multi-Modal Chain of Thought for Structural Damage Identification
作者: Yunkai Zhang, Shiyin Wei, Yong Huang, Yawu Su, Shanshan Lu, Hui Li
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2504.11477v1

摘要

arXiv:2504.11477v1 公告类型: cross 摘要: 基于计算机视觉(CV)的结构损伤识别模型在分类和定位损伤方面显示出显著的准确性。然而,这些模型在实际工程应用中存在几个关键的限制,特别是在土木工程(CE)领域。首先,它们识别损伤类型的能力受到限制,无法全面分析真实世界CE结构中多种复杂条件。其次,这些模型缺乏语言能力,无法通过自然语言描述结构损伤特性。随着人工智能(AI)的不断进步,大型多模态模型(LMMs)已作为一种变革性的解决方案出现,能够统一编码和对齐文本和视觉数据。这些模型可以自主生成详细的结构损伤描述性叙述,同时在各种场景和任务中表现出强大的泛化能力。本研究引入了SDIGLM,一种基于开源VisualGLM-6B架构开发的创新LMM,用于结构损伤识别。为了解决将LMM适应CE复杂多变的工作环境的挑战,本文整合了一个基于U-Net的语义分割模块,生成缺陷分割图作为视觉链式思维(CoT)。此外,构建了一个多轮对话微调数据集以增强逻辑推理能力,并通过提示工程技术形成了语言CoT。借助这种多模态CoT,SDIGLM在结构损伤识别中超越了一般用途的LMMs,在各种基础设施类型中达到了95.24%的准确性。此外,该模型有效地描述了损伤特性,如孔径大小、裂缝方向和腐蚀严重程度。