LLM2D
AI能否掌握建筑管理(CM)?基于最先进的大型语言模型在建筑管理认证考试上的评估
Can AI Master Construction Management (CM)? Benchmarking State-of-the-Art Large Language Models on CM Certification Exams
作者: Ruoxin Xiong, Yanyu Wang, Suat Gunhan, Yimin Zhu, Charles Berryman
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.08779v1

摘要

arXiv:2504.08779v1 交叉类型:综合 摘要:建筑管理(CM)项目的复杂性日益增加,加上严格监管要求和劳动力短缺等挑战,需要专门的分析工具来简化项目工作流程并提高性能。尽管大型语言模型(LLMs)在通用推理任务上表现出色,但它们在解决CM特定问题方面的有效性,例如精确的量化分析和法规解释,仍然缺乏充分探索。为弥合这一差距,本研究引入了CMExamSet,这是一个全面的基准数据集,包含689道来自四个国家级认证CM资格考试的真实多项选择题。我们的零样本评估评估了总体准确率、主题领域(例如施工安全)、推理复杂性(单步和多步)以及问题形式(纯文本、图参考和表格参考)。结果显示,GPT-4o和Claude 3.7超出了典型的70%通过率,平均准确率分别为82%和83%。此外,两者在单步任务上的表现更好,准确率分别为85.7%(GPT-4o)和86.7%(Claude 3.7)。多步任务更具挑战性,准确率分别下降到76.5%和77.6%。此外,这两种LLM在图参考问题上的表现也存在明显局限性,准确率分别下降到约40%。我们进一步的错误模式分析表明,概念误解是最常见的(44.4%和47.9%),凸显了增强领域特定推理模型的必要性。这些发现强调了LLMs作为CM有价值的补充分析工具的潜力,同时也指出了在复杂决策中需要领域特定的改进和持续的人类监督。