LLM2D

摘要

arXiv:2410.05298v2 宣告类型: replace-cross 摘要: 对大型语言模型（LLMs）在图相关任务上的能力和限制进行基准测试已成为越来越受欢迎和关键的研究领域。最近的研究表明，LLMs 在理解图结构和节点特征方面表现出初步的能力。然而，LLMs 在图模式挖掘方面的潜力尚待充分探索。这是诸如计算化学、生物学和社会网络分析等领域的关键组成部分。为解决这一问题，本工作引入了一个全面的基准测试，以评估LLMs在图模式任务上的能力。我们开发了一个基准测试，该测试可以评估LLMs是否能够基于术语描述或拓扑描述理解图模式。此外，我们的基准测试还测试了LLMs在数据中自主发现图模式的能力。该基准测试涵盖了合成和真实数据集以及多种模型，共有11项任务和7种模型。我们的实验框架设计得便于扩展，以适应新的模型和数据集。我们的研究发现如下：(1) LLMs在理解图模式方面具有初步的能力，O1-mini在大多数任务中表现最佳；(2) 调整输入数据的格式，使其与预训练期间获得的知识一致，可以提高性能；(3) LLMs所使用的方法可能与传统算法的方法不同。