LLM2D

摘要

城市知识图谱近年来作为一种新兴的基础设施，从多源城市数据中提取关键知识，为各种城市应用场景提供支持。尽管城市知识图谱具有广阔的前景，但其构建（UrbanKGC）仍然严重依赖人工，阻碍了其潜在的进步。本文提出了 UrbanKGent，一个用于城市知识图谱构建的统一大型语言模型代理框架。具体来说，我们首先通过异构感知和地理空间融合指令生成，构建了针对 UrbanKGC 任务（例如关系三元组提取和知识图谱补全）的知识型指令集。此外，我们提出了一种工具增强迭代轨迹细化模块，以增强和细化从 GPT-4 中提取的轨迹。通过在 Llama 2 和 Llama 3 系列上使用增强轨迹进行混合指令微调，我们获得了 UrbanKGC 代理家族，包括 UrbanKGent-7/8/13B 版本。我们使用人工评估和 GPT-4 自我评估对两个真实世界数据集进行了全面评估。实验结果表明，UrbanKGent 家族不仅在 UrbanKGC 任务中显著优于 31 个基线，而且在成本低约 20 倍的情况下，比最先进的 LLM GPT-4 提高了 10% 以上。与现有基准相比，UrbanKGent 家族可以使用五分之一的数据构建一个关系丰富数百倍的城市知识图谱。我们的数据和代码可在 https://github.com/usail-hkust/UrbanKGent 获取。