LLM2D
GraphArena:在图计算中评估和探索大型语言模型
GraphArena: Evaluating and Exploring Large Language Models on Graph Computation
作者: Jianheng Tang, Qifan Zhang, Yuhan Li, Nuo Chen, Jia Li
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2407.00379v2

摘要

arXiv:2407.00379v2 声明类型: 替换 摘要: 大型语言模型 (LLMs) 的“军备竞赛”要求新的基准来检验它们的进步。本文介绍了 GraphArena,一个旨在评估 LLMs 在实际图形计算问题上的基准测试工具。它提供了四个多项式时间任务(例如,最短距离)和六个 NP 完全挑战(例如,旅行商问题)。GraphArena 的评估框架特征是将 LLM 输出分类为正确、次优(可行但不最优)、虚构(格式正确但不可行)或缺失。对超过 10 种 LLM 的评估显示,即使是表现最佳的 LLM 也难以处理更大、更复杂的图形问题,并表现出虚构问题。我们进一步探讨了四种潜在的解决方案,以解决这一问题并改善 LLMs 在图形计算中的表现,包括思维链提示、指令调优、编写代码以及扩展测试时计算量,每种方法都展示了独特的优点和局限性。GraphArena 补充了现有的 LLM 基准测试,并在 https://github.com/squareRoot3/GraphArena 开放源代码。