LLM2D

摘要

arXiv:2504.08779v1 交叉类型：综合摘要：建筑管理(CM)项目的复杂性日益增加，加上严格监管要求和劳动力短缺等挑战，需要专门的分析工具来简化项目工作流程并提高性能。尽管大型语言模型（LLMs）在通用推理任务上表现出色，但它们在解决CM特定问题方面的有效性，例如精确的量化分析和法规解释，仍然缺乏充分探索。为弥合这一差距，本研究引入了CMExamSet，这是一个全面的基准数据集，包含689道来自四个国家级认证CM资格考试的真实多项选择题。我们的零样本评估评估了总体准确率、主题领域（例如施工安全）、推理复杂性（单步和多步）以及问题形式（纯文本、图参考和表格参考）。结果显示，GPT-4o和Claude 3.7超出了典型的70%通过率，平均准确率分别为82%和83%。此外，两者在单步任务上的表现更好，准确率分别为85.7%（GPT-4o）和86.7%（Claude 3.7）。多步任务更具挑战性，准确率分别下降到76.5%和77.6%。此外，这两种LLM在图参考问题上的表现也存在明显局限性，准确率分别下降到约40%。我们进一步的错误模式分析表明，概念误解是最常见的（44.4%和47.9%），凸显了增强领域特定推理模型的必要性。这些发现强调了LLMs作为CM有价值的补充分析工具的潜力，同时也指出了在复杂决策中需要领域特定的改进和持续的人类监督。