摘要
arXiv:2406.16176v2 通告类型: 重置
摘要:大型语言模型(LLMs)在自然语言处理(NLP)中取得了显著的成功,展示了处理和理解文本数据的强大能力。然而,最近的研究发现LLMs在操作、编程和处理结构化数据,尤其是图形数据方面的能力存在局限性。我们引入了GraphEval36K,这是第一个全面的图形数据集,包含40个图形编码问题和36,900个测试案例,用于评估LLMs在图形问题解决方面的能力。我们的数据集分为八个主要类别和四个子类别,以确保在不同类型的图形上进行全面评估。我们基准测试了十种LLMs,发现私有模型优于开源模型,尽管差距在缩小。我们还分析了LLMs在有向图与无向图、不同类型的图概念以及网络模型方面的性能。此外,为了提高我们评估框架的可用性,我们提出了结构符号分解(SSD),这是一种基于指令的方法,旨在增强LLMs在复杂图形任务上的性能。结果显示,SSD分别将GPT-4、GPT-4o、Gemini-Pro和Claude-3-Sonnet的平均通过率提高了8.38%、6.78%、29.28%和25.28%。