LLM2D

摘要

arXiv:2406.16176v2 通告类型: 重置摘要：大型语言模型（LLMs）在自然语言处理（NLP）中取得了显著的成功，展示了处理和理解文本数据的强大能力。然而，最近的研究发现LLMs在操作、编程和处理结构化数据，尤其是图形数据方面的能力存在局限性。我们引入了GraphEval36K，这是第一个全面的图形数据集，包含40个图形编码问题和36,900个测试案例，用于评估LLMs在图形问题解决方面的能力。我们的数据集分为八个主要类别和四个子类别，以确保在不同类型的图形上进行全面评估。我们基准测试了十种LLMs，发现私有模型优于开源模型，尽管差距在缩小。我们还分析了LLMs在有向图与无向图、不同类型的图概念以及网络模型方面的性能。此外，为了提高我们评估框架的可用性，我们提出了结构符号分解（SSD），这是一种基于指令的方法，旨在增强LLMs在复杂图形任务上的性能。结果显示，SSD分别将GPT-4、GPT-4o、Gemini-Pro和Claude-3-Sonnet的平均通过率提高了8.38%、6.78%、29.28%和25.28%。