LLM2D

摘要

分析图的需求在各个领域都无处不在，从社交网络到生物研究和推荐系统。因此，赋予大型语言模型 (LLM) 处理图的能力是迈向更高级通用智能的重要一步。然而，当前针对图分析的 LLM 基准测试要求模型直接推理描述图拓扑结构的提示，因此仅限于只有几十个节点的小型图。相比之下，人类专家通常会根据流行的库编写程序来解决任务，因此可以处理不同规模的图。为此，自然会产生一个问题：LLM 是否可以像专业人士一样分析图？在本文中，我们介绍了 ProGraph，一个手动构建的基准测试，包含 3 类图任务。该基准测试期望基于编程的解决方案，而不是直接推理原始输入。我们的发现表明，当前 LLM 的性能并不令人满意，最佳模型的准确率仅为 36%。为了弥补这一差距，我们提出了 LLM4Graph 数据集，其中包括基于 6 个广泛使用的图库的爬取文档和自动生成的代码。通过将闭源 LLM 与文档检索相结合，并在代码上微调开源 LLM，我们展示了其准确率的 11-32% 的绝对提升。我们的结果强调了 LLM 在处理结构化数据方面的能力仍未得到充分探索，并展示了 LLM4Graph 在增强 LLM 图分析能力方面的有效性。基准测试、数据集和增强的开源模型可在 https://github.com/BUPT-GAMMA/ProGraph 获取。