摘要
分析图的需求在各个领域都无处不在,从社交网络到生物研究和推荐系统。因此,赋予大型语言模型 (LLM) 处理图的能力是迈向更高级通用智能的重要一步。然而,当前针对图分析的 LLM 基准测试要求模型直接推理描述图拓扑结构的提示,因此仅限于只有几十个节点的小型图。相比之下,人类专家通常会根据流行的库编写程序来解决任务,因此可以处理不同规模的图。为此,自然会产生一个问题:LLM 是否可以像专业人士一样分析图?在本文中,我们介绍了 ProGraph,一个手动构建的基准测试,包含 3 类图任务。该基准测试期望基于编程的解决方案,而不是直接推理原始输入。我们的发现表明,当前 LLM 的性能并不令人满意,最佳模型的准确率仅为 36%。为了弥补这一差距,我们提出了 LLM4Graph 数据集,其中包括基于 6 个广泛使用的图库的爬取文档和自动生成的代码。通过将闭源 LLM 与文档检索相结合,并在代码上微调开源 LLM,我们展示了其准确率的 11-32% 的绝对提升。我们的结果强调了 LLM 在处理结构化数据方面的能力仍未得到充分探索,并展示了 LLM4Graph 在增强 LLM 图分析能力方面的有效性。基准测试、数据集和增强的开源模型可在 https://github.com/BUPT-GAMMA/ProGraph 获取。