LLM2D

摘要

arXiv:2504.21027v1 交叉公告类型：arXiv 摘要：大型语言模型（LLMs）的出现为传统上由人类专业知识主导的各种领域的革命提供了希望。城市规划是一个从根本上塑造我们日常环境的专业领域，这个领域高度依赖于人类专家的多方面领域知识和经验。人类从业者在城市规划领域的帮助程度仍然尚未得到充分探索。本文中，我们介绍了一个全面的基准，UrbanPlanBench，用于评估LLMs在城市规划中的效果，涵盖了基本原理、专业知识、管理和法规，与人类规划师预期的资格要求密切相关。通过广泛的评估，我们揭示了LLMs在获取规划知识方面存在显著的不平衡，即使是最熟练的模型也无法达到专业标准。例如，我们观察到，在理解和掌握规划法规方面，有70%的LLMs未能达到其他方面的表现。除了基准之外，我们还呈现了迄今为止最大的监督微调（SFT）数据集UrbanPlanText，包含超过30,000个来自城市规划考试和教科书的指令对。我们的研究结果表明，微调模型在记忆测试和理解城市规划知识方面表现出增强的效果，但存在显著的空间待改进，特别是在需要特定领域术语和推理的任务中。通过在https://github.com/tsinghua-fib-lab/PlanBench 公开我们的基准、数据集及相关评估和微调工具集，我们旨在促进LLMs在实际城市规划中的集成，推动人类专业知识与机器智能的共生合作。