LLM2D
GraphEval36K:在图数据集上评估大型语言模型的编码和推理能力
GraphEval36K: Benchmarking Coding and Reasoning Capabilities of Large Language Models on Graph Datasets
作者: Qiming Wu, Zichen Chen, Will Corcoran, Misha Sra, Ambuj K. Singh
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2406.16176v2

摘要

arXiv:2406.16176v2 通告类型: 重置 摘要:大型语言模型(LLMs)在自然语言处理(NLP)中取得了显著的成功,展示了处理和理解文本数据的强大能力。然而,最近的研究发现LLMs在操作、编程和处理结构化数据,尤其是图形数据方面的能力存在局限性。我们引入了GraphEval36K,这是第一个全面的图形数据集,包含40个图形编码问题和36,900个测试案例,用于评估LLMs在图形问题解决方面的能力。我们的数据集分为八个主要类别和四个子类别,以确保在不同类型的图形上进行全面评估。我们基准测试了十种LLMs,发现私有模型优于开源模型,尽管差距在缩小。我们还分析了LLMs在有向图与无向图、不同类型的图概念以及网络模型方面的性能。此外,为了提高我们评估框架的可用性,我们提出了结构符号分解(SSD),这是一种基于指令的方法,旨在增强LLMs在复杂图形任务上的性能。结果显示,SSD分别将GPT-4、GPT-4o、Gemini-Pro和Claude-3-Sonnet的平均通过率提高了8.38%、6.78%、29.28%和25.28%。