摘要
arXiv:2504.08779v1 交叉类型:综合
摘要:建筑管理(CM)项目的复杂性日益增加,加上严格监管要求和劳动力短缺等挑战,需要专门的分析工具来简化项目工作流程并提高性能。尽管大型语言模型(LLMs)在通用推理任务上表现出色,但它们在解决CM特定问题方面的有效性,例如精确的量化分析和法规解释,仍然缺乏充分探索。为弥合这一差距,本研究引入了CMExamSet,这是一个全面的基准数据集,包含689道来自四个国家级认证CM资格考试的真实多项选择题。我们的零样本评估评估了总体准确率、主题领域(例如施工安全)、推理复杂性(单步和多步)以及问题形式(纯文本、图参考和表格参考)。结果显示,GPT-4o和Claude 3.7超出了典型的70%通过率,平均准确率分别为82%和83%。此外,两者在单步任务上的表现更好,准确率分别为85.7%(GPT-4o)和86.7%(Claude 3.7)。多步任务更具挑战性,准确率分别下降到76.5%和77.6%。此外,这两种LLM在图参考问题上的表现也存在明显局限性,准确率分别下降到约40%。我们进一步的错误模式分析表明,概念误解是最常见的(44.4%和47.9%),凸显了增强领域特定推理模型的必要性。这些发现强调了LLMs作为CM有价值的补充分析工具的潜力,同时也指出了在复杂决策中需要领域特定的改进和持续的人类监督。