LLM2D

摘要

arXiv:2407.00379v2 声明类型: 替换摘要: 大型语言模型 (LLMs) 的“军备竞赛”要求新的基准来检验它们的进步。本文介绍了 GraphArena，一个旨在评估 LLMs 在实际图形计算问题上的基准测试工具。它提供了四个多项式时间任务（例如，最短距离）和六个 NP 完全挑战（例如，旅行商问题）。GraphArena 的评估框架特征是将 LLM 输出分类为正确、次优（可行但不最优）、虚构（格式正确但不可行）或缺失。对超过 10 种 LLM 的评估显示，即使是表现最佳的 LLM 也难以处理更大、更复杂的图形问题，并表现出虚构问题。我们进一步探讨了四种潜在的解决方案，以解决这一问题并改善 LLMs 在图形计算中的表现，包括思维链提示、指令调优、编写代码以及扩展测试时计算量，每种方法都展示了独特的优点和局限性。GraphArena 补充了现有的 LLM 基准测试，并在 https://github.com/squareRoot3/GraphArena 开放源代码。