摘要
arXiv:2504.21027v1 交叉公告类型:arXiv
摘要:大型语言模型(LLMs)的出现为传统上由人类专业知识主导的各种领域的革命提供了希望。城市规划是一个从根本上塑造我们日常环境的专业领域,这个领域高度依赖于人类专家的多方面领域知识和经验。人类从业者在城市规划领域的帮助程度仍然尚未得到充分探索。本文中,我们介绍了一个全面的基准,UrbanPlanBench,用于评估LLMs在城市规划中的效果,涵盖了基本原理、专业知识、管理和法规,与人类规划师预期的资格要求密切相关。通过广泛的评估,我们揭示了LLMs在获取规划知识方面存在显著的不平衡,即使是最熟练的模型也无法达到专业标准。例如,我们观察到,在理解和掌握规划法规方面,有70%的LLMs未能达到其他方面的表现。除了基准之外,我们还呈现了迄今为止最大的监督微调(SFT)数据集UrbanPlanText,包含超过30,000个来自城市规划考试和教科书的指令对。我们的研究结果表明,微调模型在记忆测试和理解城市规划知识方面表现出增强的效果,但存在显著的空间待改进,特别是在需要特定领域术语和推理的任务中。通过在https://github.com/tsinghua-fib-lab/PlanBench 公开我们的基准、数据集及相关评估和微调工具集,我们旨在促进LLMs在实际城市规划中的集成,推动人类专业知识与机器智能的共生合作。